論文の概要: BinaryViT: Pushing Binary Vision Transformers Towards Convolutional
Models
- arxiv url: http://arxiv.org/abs/2306.16678v1
- Date: Thu, 29 Jun 2023 04:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:47:04.508782
- Title: BinaryViT: Pushing Binary Vision Transformers Towards Convolutional
Models
- Title(参考訳): binaryvit:binary vision transformersを畳み込みモデルにプッシュする
- Authors: Phuoc-Hoan Charles Le, Xinlin Li
- Abstract要約: バイナリ化は、ViTモデルのサイズと計算コストを大幅に削減するのに役立つ。
ViTは、畳み込みニューラルネットワーク(CNN)バイナライゼーションメソッドを直接適用する場合、パフォーマンスが低下する。
我々は、CNNアーキテクチャにインスパイアされたBinaryViTを提案し、CNNアーキテクチャから純粋なViTアーキテクチャへの操作を含む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing popularity and the increasing size of vision transformers
(ViTs), there has been an increasing interest in making them more efficient and
less computationally costly for deployment on edge devices with limited
computing resources. Binarization can be used to help reduce the size of ViT
models and their computational cost significantly, using popcount operations
when the weights and the activations are in binary. However, ViTs suffer a
larger performance drop when directly applying convolutional neural network
(CNN) binarization methods or existing binarization methods to binarize ViTs
compared to CNNs on datasets with a large number of classes such as
ImageNet-1k. With extensive analysis, we find that binary vanilla ViTs such as
DeiT miss out on a lot of key architectural properties that CNNs have that
allow binary CNNs to have much higher representational capability than binary
vanilla ViT. Therefore, we propose BinaryViT, in which inspired by the CNN
architecture, we include operations from the CNN architecture into a pure ViT
architecture to enrich the representational capability of a binary ViT without
introducing convolutions. These include an average pooling layer instead of a
token pooling layer, a block that contains multiple average pooling branches,
an affine transformation right before the addition of each main residual
connection, and a pyramid structure. Experimental results on the ImageNet-1k
dataset show the effectiveness of these operations that allow a binary pure ViT
model to be competitive with previous state-of-the-art (SOTA) binary CNN
models.
- Abstract(参考訳): 視覚トランスフォーマー(vits)の人気が高まるとともに、コンピューティングリソースが限られているエッジデバイスへのデプロイにおいて、より効率的で計算コストの少ないものにすることへの関心が高まっている。
バイナリ化は、重みとアクティベーションがバイナリにある場合のポップカウント演算を用いて、ViTモデルのサイズと計算コストを大幅に削減するのに役立つ。
しかし、ImageNet-1kのような多数のクラスを持つデータセット上のCNNと比較して、畳み込みニューラルネットワーク(CNN)のバイナライズ手法や既存のバイナライズ手法を直接適用すると、ViTのパフォーマンスが低下する。
広範な分析により、DeiTのようなバイナリバニラViTは、バイナリバニラViTよりもはるかに高い表現能力を持つようにCNNが持つ重要なアーキテクチャ特性の多くを見逃していることがわかった。
そこで我々は、CNNアーキテクチャにインスパイアされたBinaryViTを提案し、CNNアーキテクチャから純粋なViTアーキテクチャへの操作を含め、畳み込みを導入することなくバイナリViTの表現能力を向上する。
これには、トークンプーリング層の代わりに平均プーリング層、複数の平均プーリング分岐を含むブロック、各主残差接続が付加される直前のアフィン変換、ピラミッド構造が含まれる。
ImageNet-1kデータセットの実験結果は、これらの操作の有効性を示し、バイナリ純粋なViTモデルと従来の最先端(SOTA)バイナリCNNモデルとの競合を可能にする。
関連論文リスト
- Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Basic Binary Convolution Unit for Binarized Image Restoration Network [146.0988597062618]
本研究では,画像復元作業における残差接続,BatchNorm,アクティベーション機能,構造などのバイナリ畳み込みのコンポーネントを再検討する。
本研究の成果と分析に基づいて, 単純で効率的な基本二元畳み込みユニット (BBCU) を設計した。
我々のBBCUは、他のBNNや軽量モデルよりも大幅に優れており、BBCUがバイナライズされたIRネットワークの基本ユニットとして機能することを示しています。
論文 参考訳(メタデータ) (2022-10-02T01:54:40Z) - So-ViT: Mind Visual Tokens for Vision Transformer [27.243241133304785]
本稿では,視覚トークンの2次相互分散プールとクラストークンを組み合わせ,最終分類を行う新しい分類パラダイムを提案する。
我々は,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。
その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。
論文 参考訳(メタデータ) (2021-04-22T09:05:09Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Towards Lossless Binary Convolutional Neural Networks Using Piecewise
Approximation [4.023728681102073]
CNNは算術演算の数とメモリストレージのサイズを大幅に減らすことができる。
しかし、単一のバイナリCNNと複数のバイナリCNNの精度劣化は、現代のアーキテクチャでは受け入れられない。
完全精度の重みとアクティベーションを近似することにより、精度の低下を低減できる複数のバイナリCNNに対するPiecewise Approximationスキームを提案する。
論文 参考訳(メタデータ) (2020-08-08T13:32:33Z) - NASB: Neural Architecture Search for Binary Convolutional Neural
Networks [2.3204178451683264]
我々は、ニューラルネットワーク探索(NAS)を採用したNASBという戦略を提案し、CNNのバイナライゼーションに最適なアーキテクチャを提案する。
この自動戦略の柔軟性のため、得られたアーキテクチャは二項化に適合するだけでなく、オーバーヘッドも低い。
NASBは、既存のシングルCNNと複数のバイナリCNNをそれぞれ最大4.0%、トップ1の精度1.0%で上回っている。
論文 参考訳(メタデータ) (2020-08-08T13:06:11Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。