論文の概要: Bi-ViT: Pushing the Limit of Vision Transformer Quantization
- arxiv url: http://arxiv.org/abs/2305.12354v1
- Date: Sun, 21 May 2023 05:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 21:01:50.226259
- Title: Bi-ViT: Pushing the Limit of Vision Transformer Quantization
- Title(参考訳): Bi-ViT:視覚変換器量子化の限界を押し上げる
- Authors: Yanjing Li, Sheng Xu, Mingbao Lin, Xianbin Cao, Chuanjian Liu, Xiao
Sun, Baochang Zhang
- Abstract要約: ビジョントランスフォーマー(ViT)量子化は、リソース制限されたデバイスに大規模なトレーニング済みネットワークをデプロイしやすくする有望な展望を提供する。
本研究では, 学習可能なスケーリング係数を導入して, 消失した勾配を再活性化し, 理論的, 実験的解析によりその効果を実証する。
そこで我々は,教師・学生の枠組みにおいて,障害のあるランキングを正すためのランキングアウェア蒸留法を提案する。
- 参考スコア(独自算出の注目度): 38.24456467950003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers (ViTs) quantization offers a promising prospect to
facilitate deploying large pre-trained networks on resource-limited devices.
Fully-binarized ViTs (Bi-ViT) that pushes the quantization of ViTs to its limit
remain largely unexplored and a very challenging task yet, due to their
unacceptable performance. Through extensive empirical analyses, we identify the
severe drop in ViT binarization is caused by attention distortion in
self-attention, which technically stems from the gradient vanishing and ranking
disorder. To address these issues, we first introduce a learnable scaling
factor to reactivate the vanished gradients and illustrate its effectiveness
through theoretical and experimental analyses. We then propose a ranking-aware
distillation method to rectify the disordered ranking in a teacher-student
framework. Bi-ViT achieves significant improvements over popular DeiT and Swin
backbones in terms of Top-1 accuracy and FLOPs. For example, with DeiT-Tiny and
Swin-Tiny, our method significantly outperforms baselines by 22.1% and 21.4%
respectively, while 61.5x and 56.1x theoretical acceleration in terms of FLOPs
compared with real-valued counterparts on ImageNet.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)量子化は、リソース制限されたデバイスに大規模なトレーニング済みネットワークをデプロイしやすくする有望な展望を提供する。
ViTの量子化をその限界まで押し上げる完全バイナリ化ViT(Bi-ViT)は、まだほとんど探索されておらず、許容できない性能のため非常に難しい課題である。
広汎な経験的分析により,ViTバイナライゼーションの深刻な低下は,自己注意の注意歪によるものであり,技術的には勾配消失とランキング障害に起因する。
これらの問題に対処するために,我々はまず,消失した勾配を反応させる学習可能なスケーリング因子を導入し,理論的および実験的解析によりその効果を説明する。
そこで本研究では, 教師・学生の枠組みで無秩序なランキングを正すための, ランキング対応蒸留法を提案する。
Bi-ViTは、Top-1の精度とFLOPの点で、人気のあるDeiTとSwinのバックボーンよりも大幅に改善されている。
例えば、DeiT-Tiny と Swin-Tiny はベースラインを 22.1% と 21.4% で上回り、61.5x と 56.1x の理論的加速度は ImageNet の実際の値と比較すると大きく上回ります。
関連論文リスト
- MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision
Transformer [7.041718444626999]
視覚変換器(MPTQ-ViT)のための混合精度後学習量子化フレームワークを提案する。
我々のViT,DeiT,Swinに関する実験では,ImageNetデータセットのSOTAと比較して精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-01-26T14:25:15Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - BinaryViT: Towards Efficient and Accurate Binary Vision Transformers [4.339315098369913]
ビジョントランスフォーマー(ViT)は、ほとんどのコンピュータビジョンフィールドの基本的なアーキテクチャとして登場した。
最も強力な圧縮手法の1つとして、バイナライゼーションは、重みとアクティベーション値をpm$1として定量化することにより、ニューラルネットワークの計算を減らす。
既存のバイナライゼーション手法はCNNでは優れた性能を示したが、ViTの完全なバイナライゼーションはまだ未検討であり、性能低下に悩まされている。
論文 参考訳(メタデータ) (2023-05-24T05:06:59Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Semi-supervised Vision Transformers at Scale [93.0621675558895]
視覚変換器(ViT)のための半教師あり学習(SSL)について検討する。
我々は、最初のun/self教師付き事前トレーニングと教師付き微調整、そして最後に半教師付き微調整からなる新しいSSLパイプラインを提案する。
提案手法はSemi-ViTと呼ばれ,半教師付き分類設定においてCNNと同等あるいは同等の性能を達成している。
論文 参考訳(メタデータ) (2022-08-11T08:11:54Z) - The Principle of Diversity: Training Stronger Vision Transformers Calls
for Reducing All Levels of Redundancy [111.49944789602884]
本稿では,パッチ埋め込み,アテンションマップ,ウェイトスペースという3つのレベルにおいて,冗長性のユビキタスな存在を体系的に研究する。
各レベルにおける表現の多様性とカバレッジを促進するための対応正規化器を提案する。
論文 参考訳(メタデータ) (2022-03-12T04:48:12Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。