論文の概要: BinaryViT: Pushing Binary Vision Transformers Towards Convolutional
Models
- arxiv url: http://arxiv.org/abs/2306.16678v1
- Date: Thu, 29 Jun 2023 04:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 14:47:04.508782
- Title: BinaryViT: Pushing Binary Vision Transformers Towards Convolutional
Models
- Title(参考訳): binaryvit:binary vision transformersを畳み込みモデルにプッシュする
- Authors: Phuoc-Hoan Charles Le, Xinlin Li
- Abstract要約: バイナリ化は、ViTモデルのサイズと計算コストを大幅に削減するのに役立つ。
ViTは、畳み込みニューラルネットワーク(CNN)バイナライゼーションメソッドを直接適用する場合、パフォーマンスが低下する。
我々は、CNNアーキテクチャにインスパイアされたBinaryViTを提案し、CNNアーキテクチャから純粋なViTアーキテクチャへの操作を含む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing popularity and the increasing size of vision transformers
(ViTs), there has been an increasing interest in making them more efficient and
less computationally costly for deployment on edge devices with limited
computing resources. Binarization can be used to help reduce the size of ViT
models and their computational cost significantly, using popcount operations
when the weights and the activations are in binary. However, ViTs suffer a
larger performance drop when directly applying convolutional neural network
(CNN) binarization methods or existing binarization methods to binarize ViTs
compared to CNNs on datasets with a large number of classes such as
ImageNet-1k. With extensive analysis, we find that binary vanilla ViTs such as
DeiT miss out on a lot of key architectural properties that CNNs have that
allow binary CNNs to have much higher representational capability than binary
vanilla ViT. Therefore, we propose BinaryViT, in which inspired by the CNN
architecture, we include operations from the CNN architecture into a pure ViT
architecture to enrich the representational capability of a binary ViT without
introducing convolutions. These include an average pooling layer instead of a
token pooling layer, a block that contains multiple average pooling branches,
an affine transformation right before the addition of each main residual
connection, and a pyramid structure. Experimental results on the ImageNet-1k
dataset show the effectiveness of these operations that allow a binary pure ViT
model to be competitive with previous state-of-the-art (SOTA) binary CNN
models.
- Abstract(参考訳): 視覚トランスフォーマー(vits)の人気が高まるとともに、コンピューティングリソースが限られているエッジデバイスへのデプロイにおいて、より効率的で計算コストの少ないものにすることへの関心が高まっている。
バイナリ化は、重みとアクティベーションがバイナリにある場合のポップカウント演算を用いて、ViTモデルのサイズと計算コストを大幅に削減するのに役立つ。
しかし、ImageNet-1kのような多数のクラスを持つデータセット上のCNNと比較して、畳み込みニューラルネットワーク(CNN)のバイナライズ手法や既存のバイナライズ手法を直接適用すると、ViTのパフォーマンスが低下する。
広範な分析により、DeiTのようなバイナリバニラViTは、バイナリバニラViTよりもはるかに高い表現能力を持つようにCNNが持つ重要なアーキテクチャ特性の多くを見逃していることがわかった。
そこで我々は、CNNアーキテクチャにインスパイアされたBinaryViTを提案し、CNNアーキテクチャから純粋なViTアーキテクチャへの操作を含め、畳み込みを導入することなくバイナリViTの表現能力を向上する。
これには、トークンプーリング層の代わりに平均プーリング層、複数の平均プーリング分岐を含むブロック、各主残差接続が付加される直前のアフィン変換、ピラミッド構造が含まれる。
ImageNet-1kデータセットの実験結果は、これらの操作の有効性を示し、バイナリ純粋なViTモデルと従来の最先端(SOTA)バイナリCNNモデルとの競合を可能にする。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation [13.753795233064695]
ほとんどのドメイン適応(DA)法は、畳み込みニューラルネットワーク(CNN)または視覚変換器(ViT)に基づいている。
ECB(Explicitly Class-specific boundaries)と呼ばれる,ViTとCNNの両方をフル活用するためのハイブリッド手法を設計する。
ECBは独自の強みを組み合わせるために、ViTでCNNを学びます。
論文 参考訳(メタデータ) (2024-03-27T08:52:44Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - Basic Binary Convolution Unit for Binarized Image Restoration Network [146.0988597062618]
本研究では,画像復元作業における残差接続,BatchNorm,アクティベーション機能,構造などのバイナリ畳み込みのコンポーネントを再検討する。
本研究の成果と分析に基づいて, 単純で効率的な基本二元畳み込みユニット (BBCU) を設計した。
我々のBBCUは、他のBNNや軽量モデルよりも大幅に優れており、BBCUがバイナライズされたIRネットワークの基本ユニットとして機能することを示しています。
論文 参考訳(メタデータ) (2022-10-02T01:54:40Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z) - Towards Lossless Binary Convolutional Neural Networks Using Piecewise
Approximation [4.023728681102073]
CNNは算術演算の数とメモリストレージのサイズを大幅に減らすことができる。
しかし、単一のバイナリCNNと複数のバイナリCNNの精度劣化は、現代のアーキテクチャでは受け入れられない。
完全精度の重みとアクティベーションを近似することにより、精度の低下を低減できる複数のバイナリCNNに対するPiecewise Approximationスキームを提案する。
論文 参考訳(メタデータ) (2020-08-08T13:32:33Z) - NASB: Neural Architecture Search for Binary Convolutional Neural
Networks [2.3204178451683264]
我々は、ニューラルネットワーク探索(NAS)を採用したNASBという戦略を提案し、CNNのバイナライゼーションに最適なアーキテクチャを提案する。
この自動戦略の柔軟性のため、得られたアーキテクチャは二項化に適合するだけでなく、オーバーヘッドも低い。
NASBは、既存のシングルCNNと複数のバイナリCNNをそれぞれ最大4.0%、トップ1の精度1.0%で上回っている。
論文 参考訳(メタデータ) (2020-08-08T13:06:11Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。