論文の概要: Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer
- arxiv url: http://arxiv.org/abs/2210.06707v1
- Date: Thu, 13 Oct 2022 04:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 16:07:18.782996
- Title: Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer
- Title(参考訳): Q-ViT:精度と完全量子化低ビットビジョン変換器
- Authors: Yanjing Li, Sheng Xu, Baochang Zhang, Xianbin Cao, Peng Gao, Guodong
Guo
- Abstract要約: 我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 56.87383229709899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The large pre-trained vision transformers (ViTs) have demonstrated remarkable
performance on various visual tasks, but suffer from expensive computational
and memory cost problems when deployed on resource-constrained devices. Among
the powerful compression approaches, quantization extremely reduces the
computation and memory consumption by low-bit parameters and bit-wise
operations. However, low-bit ViTs remain largely unexplored and usually suffer
from a significant performance drop compared with the real-valued counterparts.
In this work, through extensive empirical analysis, we first identify the
bottleneck for severe performance drop comes from the information distortion of
the low-bit quantized self-attention map. We then develop an information
rectification module (IRM) and a distribution guided distillation (DGD) scheme
for fully quantized vision transformers (Q-ViT) to effectively eliminate such
distortion, leading to a fully quantized ViTs. We evaluate our methods on
popular DeiT and Swin backbones. Extensive experimental results show that our
method achieves a much better performance than the prior arts. For example, our
Q-ViT can theoretically accelerates the ViT-S by 6.14x and achieves about 80.9%
Top-1 accuracy, even surpassing the full-precision counterpart by 1.0% on
ImageNet dataset. Our codes and models are attached on
https://github.com/YanjingLi0202/Q-ViT
- Abstract(参考訳): 大型事前訓練された視覚トランスフォーマー (vits) は様々な視覚タスクで顕著な性能を示したが、リソース制約されたデバイスにデプロイする際の計算コストやメモリコストの問題に苦しんでいる。
強力な圧縮手法のうち、量子化は低ビットパラメータとビット単位での演算とメモリ消費を大幅に削減する。
しかし、低ビットのvitは依然としてほとんど未検討のままであり、通常実数値のvitに比べて大幅な性能低下に苦しむ。
そこで本研究では,まず,低ビット量子化セルフアテンションマップの情報歪みによる深刻な性能低下のボトルネックを明らかにする。
次に,情報修正モジュール (IRM) と完全量子化ビジョントランス (Q-ViT) のための分散誘導蒸留 (DGD) 方式を開発し,その歪みを効果的に除去し,完全量子化ViTを実現する。
我々は人気のあるdeit と swin バックボーンの手法を評価した。
実験結果から,本手法は先行技術よりも優れた性能を示した。
例えば、私たちのQ-ViTは理論上ViT-Sを6.14倍に加速し、80.9%のTop-1精度を達成できます。
私たちのコードとモデルはhttps://github.com/YanjingLi0202/Q-ViTにアタッチされます。
関連論文リスト
- An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision
Transformer [7.041718444626999]
視覚変換器(MPTQ-ViT)のための混合精度後学習量子化フレームワークを提案する。
我々のViT,DeiT,Swinに関する実験では,ImageNetデータセットのSOTAと比較して精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-01-26T14:25:15Z) - BinaryViT: Towards Efficient and Accurate Binary Vision Transformers [4.339315098369913]
ビジョントランスフォーマー(ViT)は、ほとんどのコンピュータビジョンフィールドの基本的なアーキテクチャとして登場した。
最も強力な圧縮手法の1つとして、バイナライゼーションは、重みとアクティベーション値をpm$1として定量化することにより、ニューラルネットワークの計算を減らす。
既存のバイナライゼーション手法はCNNでは優れた性能を示したが、ViTの完全なバイナライゼーションはまだ未検討であり、性能低下に悩まされている。
論文 参考訳(メタデータ) (2023-05-24T05:06:59Z) - Bi-ViT: Pushing the Limit of Vision Transformer Quantization [38.24456467950003]
ビジョントランスフォーマー(ViT)量子化は、リソース制限されたデバイスに大規模なトレーニング済みネットワークをデプロイしやすくする有望な展望を提供する。
本研究では, 学習可能なスケーリング係数を導入して, 消失した勾配を再活性化し, 理論的, 実験的解析によりその効果を実証する。
そこで我々は,教師・学生の枠組みにおいて,障害のあるランキングを正すためのランキングアウェア蒸留法を提案する。
論文 参考訳(メタデータ) (2023-05-21T05:24:43Z) - Super Vision Transformer [131.4777773281238]
ImageNetの実験結果から, 我々のSuperViTは, 性能の向上とともに, ViTモデルの計算コストを大幅に削減できることが示された。
我々のSuperViTは、効率的な視覚変換器に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2022-05-23T15:42:12Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - TerViT: An Efficient Ternary Vision Transformer [21.348788407233265]
視覚変換器(ViT)は、様々な視覚的タスクにおいて大きな可能性を秘めているが、リソース制約されたデバイスに展開する際には、高価な計算とメモリコストの問題に悩まされている。
実測値と三次パラメータ間の大きな損失表面ギャップに挑戦する3次視覚変換器(TerViT)を導入する。
論文 参考訳(メタデータ) (2022-01-20T08:29:19Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Patch Slimming for Efficient Vision Transformers [107.21146699082819]
与えられたネットワーク上で冗長な計算を行うことにより,視覚変換器の効率性について検討する。
我々は、トップダウンパラダイムで無駄なパッチを捨てる、新しいパッチスリム化アプローチを提案する。
ベンチマークによる実験結果から,提案手法は視覚変換器の計算コストを大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-05T09:46:00Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。