論文の概要: MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision
Transformer
- arxiv url: http://arxiv.org/abs/2401.14895v2
- Date: Thu, 1 Feb 2024 02:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 18:16:37.774700
- Title: MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision
Transformer
- Title(参考訳): mptq-vit : 視覚トランスフォーマーのための混合精度後トレーニング量子化
- Authors: Yu-Shan Tai, An-Yeu (Andy) Wu
- Abstract要約: 視覚変換器(MPTQ-ViT)のための混合精度後学習量子化フレームワークを提案する。
我々のViT,DeiT,Swinに関する実験では,ImageNetデータセットのSOTAと比較して精度が大幅に向上した。
- 参考スコア(独自算出の注目度): 7.041718444626999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While vision transformers (ViTs) have shown great potential in computer
vision tasks, their intense computation and memory requirements pose challenges
for practical applications. Existing post-training quantization methods
leverage value redistribution or specialized quantizers to address the
non-normal distribution in ViTs. However, without considering the asymmetry in
activations and relying on hand-crafted settings, these methods often struggle
to maintain performance under low-bit quantization. To overcome these
challenges, we introduce SmoothQuant with bias term (SQ-b) to alleviate the
asymmetry issue and reduce the clamping loss. We also introduce optimal scaling
factor ratio search (OPT-m) to determine quantization parameters by a
data-dependent mechanism automatically. To further enhance the compressibility,
we incorporate the above-mentioned techniques and propose a mixed-precision
post-training quantization framework for vision transformers (MPTQ-ViT). We
develop greedy mixed-precision quantization (Greedy MP) to allocate layer-wise
bit-width considering both model performance and compressibility. Our
experiments on ViT, DeiT, and Swin demonstrate significant accuracy
improvements compared with SOTA on the ImageNet dataset. Specifically, our
proposed methods achieve accuracy improvements ranging from 0.90% to 23.35% on
4-bit ViTs with single-precision and from 3.82% to 78.14% on 5-bit fully
quantized ViTs with mixed-precision.
- Abstract(参考訳): 視覚変換器(ViT)はコンピュータビジョンタスクにおいて大きな可能性を示しているが、その強力な計算とメモリ要求は実用的な応用に挑戦する。
既存のトレーニング後の量子化法は、ViTの非正規分布に対処するために、値の再分配または特殊量化器を利用する。
しかし、アクティベーションの非対称性や手作りの設定を考慮せずに、これらの手法は低ビット量子化下での性能を維持するのに苦労することが多い。
これらの課題を克服するため,非対称性問題を軽減するため,バイアス項(SQ-b)を持つSmoothQuantを導入する。
また,データ依存機構による量子化パラメータの自動決定のための最適スケーリング係数比探索(OPT-m)を導入する。
圧縮性をさらに高めるため,上述の手法を取り入れ,視覚トランスフォーマー(mptq-vit)のための混合精度後量子化フレームワークを提案する。
モデル性能と圧縮性の両方を考慮して層状ビット幅を割り当てるgreedy mixed-precision quantization (greedy mp) を開発した。
我々のViT、DeiT、Swinに関する実験は、ImageNetデータセットのSOTAと比較して大幅に精度が向上した。
具体的には, 4ビットのvitsでは0.90%から23.35%, 5ビットの完全量子化vitsでは3.82%から78.14%まで精度が向上した。
関連論文リスト
- Variation-aware Vision Transformer Quantization [49.741297464791835]
本稿では,ViT量子化の難しさについて,その特異な変動挙動について検討する。
ViTの変動はトレーニングの振動を引き起こし、量子化対応トレーニング(QAT)中に不安定を引き起こすことが判明した。
知識蒸留に基づく変分対応量子化法を提案する。
論文 参考訳(メタデータ) (2023-07-01T13:01:39Z) - Patch-wise Mixed-Precision Quantization of Vision Transformer [2.3104000011280403]
視覚変換器(ViT)は、強力な特徴表現の学習を保証するために複雑な自己注意計算を必要とする。
本稿では,ViTの効率的な推定のためのパッチワイド混合精度量子化(PMQ)を提案する。
論文 参考訳(メタデータ) (2023-05-11T04:34:10Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - CPT-V: A Contrastive Approach to Post-Training Quantization of Vision
Transformers [12.987397453149537]
我々は、量子化スケールを摂動することで、既に量子化されているネットワークの精度を改善する方法を見つける。
CTP-Vは、自己監督的な方法で量子化モデルと完全精度モデルの特徴を対比する。
完全に量子化されたViTベースのトップ1の精度を10.30%、0.78%、および3ビット、4ビット、8ビットの重み量子化レベルで0.1%向上させる。
論文 参考訳(メタデータ) (2022-11-17T16:41:31Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Q-ViT: Fully Differentiable Quantization for Vision Transformer [27.361973340056963]
本稿では、Q-ViTと呼ばれる視覚変換器(ViT)の完全微分可能量子化法を提案する。
ヘッドワイドビット幅を利用して、Q-ViTのサイズを圧縮し、性能を保ちます。
特に,DeiT-Tinyでは,最先端の一様量子化法を1.5%向上させる。
論文 参考訳(メタデータ) (2022-01-19T16:43:17Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。