論文の概要: Variation-aware Vision Transformer Quantization
- arxiv url: http://arxiv.org/abs/2307.00331v1
- Date: Sat, 1 Jul 2023 13:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 16:32:54.144671
- Title: Variation-aware Vision Transformer Quantization
- Title(参考訳): 変分認識型視覚変換器量子化
- Authors: Xijie Huang, Zhiqiang Shen, Kwang-Ting Cheng
- Abstract要約: 本稿では,ViT量子化の難しさについて,その特異な変動挙動について検討する。
ViTの変動はトレーニングの振動を引き起こし、量子化対応トレーニング(QAT)中に不安定を引き起こすことが判明した。
知識蒸留に基づく変分対応量子化法を提案する。
- 参考スコア(独自算出の注目度): 49.741297464791835
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the remarkable performance of Vision Transformers (ViTs) in various
visual tasks, the expanding computation and model size of ViTs have increased
the demand for improved efficiency during training and inference. To address
the heavy computation and parameter drawbacks, quantization is frequently
studied in the community as a representative model compression technique and
has seen extensive use on CNNs. However, due to the unique properties of CNNs
and ViTs, the quantization applications on ViTs are still limited and
underexplored. In this paper, we identify the difficulty of ViT quantization on
its unique variation behaviors, which differ from traditional CNN
architectures. The variations indicate the magnitude of the parameter
fluctuations and can also measure outlier conditions. Moreover, the variation
behaviors reflect the various sensitivities to the quantization of each module.
The quantization sensitivity analysis and comparison of ViTs with CNNs help us
locate the underlying differences in variations. We also find that the
variations in ViTs cause training oscillations, bringing instability during
quantization-aware training (QAT). Correspondingly, we solve the variation
problem with an efficient knowledge-distillation-based variation-aware
quantization method. The multi-crop knowledge distillation scheme can
accelerate and stabilize the training and alleviate the variation's influence
during QAT. We also proposed a module-dependent quantization scheme and a
variation-aware regularization term to suppress the oscillation of weights. On
ImageNet-1K, we obtain a 77.66% Top-1 accuracy on the extremely low-bit
scenario of 2-bit Swin-T, outperforming the previous state-of-the-art quantized
model by 3.35%.
- Abstract(参考訳): 視覚タスクにおける視覚変換器(ViT)の顕著な性能にもかかわらず、ViTの計算とモデルサイズの拡大により、トレーニングや推論における効率向上への需要が高まっている。
重い計算とパラメータの欠点に対処するため、量子化はコミュニティにおいて代表モデル圧縮技術として頻繁に研究され、CNNで広く利用されている。
しかし、CNN と ViT のユニークな性質のため、ViT 上の量子化の応用は限定的であり、未探索である。
本稿では,従来のCNNアーキテクチャと異なり,その特異な変動挙動におけるViT量子化の難しさを明らかにする。
変動はパラメータのゆらぎの大きさを示し、異常条件も測定できる。
さらに、変動挙動は各モジュールの量子化に様々な感度を反映する。
量子化感度分析とCNNとの比較は、変動の根底にある違いを見つけるのに役立ちます。
また、ViTの変動はトレーニングの振動を引き起こし、量子化対応トレーニング(QAT)中に不安定を引き起こすことも見出した。
そこで本研究では,効率的な知識蒸留に基づく変分量化手法を用いて変分問題を解く。
マルチクロップ知識蒸留方式は, 学習を加速・安定化し, qatにおける変動の影響を緩和することができる。
また,重みの振動を抑制するため,モジュール依存量子化方式と変分対応正規化項も提案した。
ImageNet-1Kでは、2ビットのSwin-Tの超低ビットシナリオで77.66%のTop-1精度が得られる。
関連論文リスト
- QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven
Fine Tuning [16.50084447690437]
この研究は、これらの精度低下の原因を明らかにし、量子化フレンドリな微調整法である textbfQuantTune を提案している。
提案手法は, ViT, Bert-base, OPT など,トランスフォーマーベースモデルにおけるポストトレーニング量子化の大幅な改善を示す。
論文 参考訳(メタデータ) (2024-03-11T08:09:30Z) - MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision
Transformer [7.041718444626999]
視覚変換器(MPTQ-ViT)のための混合精度後学習量子化フレームワークを提案する。
我々のViT,DeiT,Swinに関する実験では,ImageNetデータセットのSOTAと比較して精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-01-26T14:25:15Z) - I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of
Post-Training ViTs Quantization [63.07712842509526]
我々は,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。
I&S-ViTは3ビットのViT-Bの性能を50.68%向上させた。
論文 参考訳(メタデータ) (2023-11-16T13:07:47Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Q-ViT: Fully Differentiable Quantization for Vision Transformer [27.361973340056963]
本稿では、Q-ViTと呼ばれる視覚変換器(ViT)の完全微分可能量子化法を提案する。
ヘッドワイドビット幅を利用して、Q-ViTのサイズを圧縮し、性能を保ちます。
特に,DeiT-Tinyでは,最先端の一様量子化法を1.5%向上させる。
論文 参考訳(メタデータ) (2022-01-19T16:43:17Z) - PTQ4ViT: Post-Training Quantization Framework for Vision Transformers [8.59265263180139]
視覚変換器における量子化の問題を分析する。
そこで本研究では,これらのアクティベーション値の量子化誤差を低減するために,ツイン均一量子化法を提案する。
実験では、ImageNet分類タスクにおいて、量子化された視覚変換器は、ほぼロスレスな予測精度(8ビットの量子化で0.5%以下)を達成することを示した。
論文 参考訳(メタデータ) (2021-11-24T06:23:06Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。