論文の概要: Q-ViT: Fully Differentiable Quantization for Vision Transformer
- arxiv url: http://arxiv.org/abs/2201.07703v1
- Date: Wed, 19 Jan 2022 16:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 14:43:42.477293
- Title: Q-ViT: Fully Differentiable Quantization for Vision Transformer
- Title(参考訳): Q-ViT:視覚変換器の完全微分可能量子化
- Authors: Zhexin Li, Tong Yang, Peisong Wang, Jian Cheng
- Abstract要約: 本稿では、Q-ViTと呼ばれる視覚変換器(ViT)の完全微分可能量子化法を提案する。
ヘッドワイドビット幅を利用して、Q-ViTのサイズを圧縮し、性能を保ちます。
特に,DeiT-Tinyでは,最先端の一様量子化法を1.5%向上させる。
- 参考スコア(独自算出の注目度): 27.361973340056963
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we propose a fully differentiable quantization method for
vision transformer (ViT) named as Q-ViT, in which both of the quantization
scales and bit-widths are learnable parameters. Specifically, based on our
observation that heads in ViT display different quantization robustness, we
leverage head-wise bit-width to squeeze the size of Q-ViT while preserving
performance. In addition, we propose a novel technique named switchable scale
to resolve the convergence problem in the joint training of quantization scales
and bit-widths. In this way, Q-ViT pushes the limits of ViT quantization to
3-bit without heavy performance drop. Moreover, we analyze the quantization
robustness of every architecture component of ViT and show that the Multi-head
Self-Attention (MSA) and the Gaussian Error Linear Units (GELU) are the key
aspects for ViT quantization. This study provides some insights for further
research about ViT quantization. Extensive experiments on different ViT models,
such as DeiT and Swin Transformer show the effectiveness of our quantization
method. In particular, our method outperforms the state-of-the-art uniform
quantization method by 1.5% on DeiT-Tiny.
- Abstract(参考訳): 本稿では、量子化スケールとビット幅の両方が学習可能なパラメータであるQ-ViTと呼ばれる視覚変換器(ViT)の完全微分可能量子化法を提案する。
具体的には、vitのヘッドが異なる量子化堅牢性を示すという観測に基づいて、ヘッドワイズビット幅を利用して、パフォーマンスを維持しながらq-vitのサイズを絞り込む。
さらに,量子化スケールとビット幅のジョイントトレーニングにおける収束問題を解くために,スイッチブルスケールという新しい手法を提案する。
このようにして、Q-ViTはViT量子化の限界を3ビットまで押し下げる。
さらに,ViTのすべてのアーキテクチャコンポーネントの量子化ロバスト性を解析し,マルチヘッド自己注意(MSA)とガウス誤差線形ユニット(GELU)がViT量子化の重要な側面であることを示す。
この研究は、ViT量子化に関するさらなる研究のための洞察を与える。
DeiT や Swin Transformer などの様々な ViT モデルに対する実験により,量子化法の有効性が示された。
特に,DeiT-Tinyでは,最先端の一様量子化法を1.5%向上させる。
関連論文リスト
- MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision
Transformer [7.041718444626999]
視覚変換器(MPTQ-ViT)のための混合精度後学習量子化フレームワークを提案する。
我々のViT,DeiT,Swinに関する実験では,ImageNetデータセットのSOTAと比較して精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-01-26T14:25:15Z) - I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization [49.17407185195788]
我々は,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。
I&S-ViTは3ビットのViT-Bの性能を50.68%向上させた。
論文 参考訳(メタデータ) (2023-11-16T13:07:47Z) - Quantization Variation: A New Perspective on Training Transformers with Low-Bit Precision [45.69716658698776]
本稿では,トランスフォーマーによる低ビット量子化学習の難しさを識別する。
本稿では,視覚と言語変換の両面での変動を考慮した量子化手法を提案する。
我々のソリューションは2ビットのSwin-TとバイナリBERTベースを大幅に改善し、3.35%と1.4%の精度向上を実現した。
論文 参考訳(メタデータ) (2023-07-01T13:01:39Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。