論文の概要: BinaryViT: Towards Efficient and Accurate Binary Vision Transformers
- arxiv url: http://arxiv.org/abs/2305.14730v1
- Date: Wed, 24 May 2023 05:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:29:51.928363
- Title: BinaryViT: Towards Efficient and Accurate Binary Vision Transformers
- Title(参考訳): binaryvit:効率良く正確なバイナリビジョントランスフォーマーを目指して
- Authors: Junrui Xiao, Zhikai Li, Lianwei Yang, Qingyi Gu
- Abstract要約: ビジョントランスフォーマー(ViT)は、ほとんどのコンピュータビジョンフィールドの基本的なアーキテクチャとして登場した。
最も強力な圧縮手法の1つとして、バイナライゼーションは、重みとアクティベーション値をpm$1として定量化することにより、ニューラルネットワークの計算を減らす。
既存のバイナライゼーション手法はCNNでは優れた性能を示したが、ViTの完全なバイナライゼーションはまだ未検討である。
- 参考スコア(独自算出の注目度): 2.3104000011280403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformers (ViTs) have emerged as the fundamental architecture for
most computer vision fields, but the considerable memory and computation costs
hinders their application on resource-limited devices. As one of the most
powerful compression methods, binarization reduces the computation of the
neural network by quantizing the weights and activation values as $\pm$1.
Although existing binarization methods have demonstrated excellent performance
on Convolutional Neural Networks (CNNs), the full binarization of ViTs is still
under-studied and suffering a significant performance drop. In this paper, we
first argue empirically that the severe performance degradation is mainly
caused by the weight oscillation in the binarization training and the
information distortion in the activation of ViTs. Based on these analyses, we
propose $\textbf{BinaryViT}$, an accurate full binarization scheme for ViTs,
which pushes the quantization of ViTs to the limit. Specifically, we propose a
novel gradient regularization scheme (GRS) for driving a bimodal distribution
of the weights to reduce oscillation in binarization training. Moreover, we
design an activation shift module (ASM) to adaptively tune the activation
distribution to reduce the information distortion caused by binarization.
Extensive experiments on ImageNet dataset show that our BinaryViT consistently
surpasses the strong baseline by 2.05% and improve the accuracy of fully
binarized ViTs to a usable level. Furthermore, our method achieves impressive
savings of 16.2$\times$ and 17.7$\times$ in model size and OPs compared to the
full-precision DeiT-S. The codes and models will be released on github.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、ほとんどのコンピュータビジョンフィールドの基本的なアーキテクチャとして登場したが、メモリと計算のコストが資源制限されたデバイスへの応用を妨げる。
最も強力な圧縮手法の1つとして、重みとアクティベーション値を$\pm$1に量子化することにより、ニューラルネットワークの計算を減少させる。
既存のバイナライゼーション手法は畳み込みニューラルネットワーク(CNN)では優れた性能を示したが、ViTの完全なバイナライゼーションはまだ未研究であり、大幅な性能低下を被っている。
本報告では,重度性能低下は主に双対化訓練における重み振動とvits活性化における情報歪みによるものであることを実証的に論じる。
これらの分析に基づいて、VTTの量子化を極限まで押し上げる精度の高い完全双項化スキームである$\textbf{BinaryViT}$を提案する。
具体的には、重みのバイモーダル分布を駆動し、バイナライズ訓練における振動を低減するための新しい勾配正規化スキーム(GRS)を提案する。
さらに,2値化による情報歪みを低減するために,アクティベーション分布を適応的に調整するアクティベーションシフトモジュール(asm)を設計する。
ImageNetデータセットの大規模な実験によると、BinaryViTは強いベースラインを2.05%上回り、完全に二項化されたViTの精度を使用可能なレベルに向上しています。
さらに,本手法はモデルサイズとOPの16.2$\times$と17.7$\times$を,完全精度のDeiT-Sと比較した。
コードとモデルはgithubでリリースされる予定だ。
関連論文リスト
- Bi-ViT: Pushing the Limit of Vision Transformer Quantization [38.24456467950003]
ビジョントランスフォーマー(ViT)量子化は、リソース制限されたデバイスに大規模なトレーニング済みネットワークをデプロイしやすくする有望な展望を提供する。
本研究では, 学習可能なスケーリング係数を導入して, 消失した勾配を再活性化し, 理論的, 実験的解析によりその効果を実証する。
そこで我々は,教師・学生の枠組みにおいて,障害のあるランキングを正すためのランキングアウェア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-05-21T05:24:43Z) - GSB: Group Superposition Binarization for Vision Transformer with
Limited Training Samples [46.025105938192624]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて顕著に機能している。
ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィッティング問題に悩まされる。
本稿では,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。
論文 参考訳(メタデータ) (2023-05-13T14:48:09Z) - BiViT: Extremely Compressed Binary Vision Transformer [19.985314022860432]
両眼視変換器(BiViT)の地平線を推し進めるための2つの基本的な課題について提案する。
本稿では,データ分布に動的に適応し,バイナライゼーションによる誤差を低減するソフトマックス対応バイナリ化を提案する。
提案手法は,TinyImageNetデータセット上で,最先端技術に対して19.8%向上する。
論文 参考訳(メタデータ) (2022-11-14T03:36:38Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - Boosting Binary Neural Networks via Dynamic Thresholds Learning [21.835748440099586]
我々はDySignを導入し、情報損失を減らし、BNNの代表能力を高める。
DCNNでは、2つのバックボーンに基づくDyBCNNが、ImageNetデータセット上で71.2%と67.4%のトップ1精度を達成した。
ViTsの場合、DyCCTはImageNetデータセット上で完全にバイナライズされたViTsと56.1%のコンボリューショナル埋め込み層の優位性を示す。
論文 参考訳(メタデータ) (2022-11-04T07:18:21Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Dynamic Dual Trainable Bounds for Ultra-low Precision Super-Resolution
Networks [82.18396309806577]
動的デュアル・トレーニング・バウンダリ(DDTB)と呼ばれる新しいアクティベーション・量子化器を提案する。
DDTBは超低精度で優れた性能を示した。
例えば、我々のDDTBは、EDSRを2ビットに量子化し、出力画像をx4にスケールアップする場合、Urban100ベンチマークで0.70dBのPSNRアップを達成する。
論文 参考訳(メタデータ) (2022-03-08T04:26:18Z) - BiFSMN: Binary Neural Network for Keyword Spotting [47.46397208920726]
BiFSMNは、KWSのための正確かつ極効率のバイナリニューラルネットワークである。
実世界のエッジハードウェアにおいて,BiFSMNは22.3倍の高速化と15.5倍のストレージ節約を実現可能であることを示す。
論文 参考訳(メタデータ) (2022-02-14T05:16:53Z) - Distribution-sensitive Information Retention for Accurate Binary Neural
Network [49.971345958676196]
本稿では、前向きのアクティベーションと後向きの勾配の情報を保持するために、新しいDIR-Net(Distribution-sensitive Information Retention Network)を提案する。
我々のDIR-Netは、主流かつコンパクトなアーキテクチャの下で、SOTAバイナライゼーションアプローチよりも一貫して優れています。
我々は、実世界のリソース制限されたデバイス上でDIR-Netを行い、ストレージの11.1倍の節約と5.4倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2021-09-25T10:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。