論文の概要: Variation-aware Vision Transformer Quantization
- arxiv url: http://arxiv.org/abs/2307.00331v1
- Date: Sat, 1 Jul 2023 13:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 16:32:54.144671
- Title: Variation-aware Vision Transformer Quantization
- Title(参考訳): 変分認識型視覚変換器量子化
- Authors: Xijie Huang, Zhiqiang Shen, Kwang-Ting Cheng
- Abstract要約: 本稿では,ViT量子化の難しさについて,その特異な変動挙動について検討する。
ViTの変動はトレーニングの振動を引き起こし、量子化対応トレーニング(QAT)中に不安定を引き起こすことが判明した。
知識蒸留に基づく変分対応量子化法を提案する。
- 参考スコア(独自算出の注目度): 49.741297464791835
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite the remarkable performance of Vision Transformers (ViTs) in various
visual tasks, the expanding computation and model size of ViTs have increased
the demand for improved efficiency during training and inference. To address
the heavy computation and parameter drawbacks, quantization is frequently
studied in the community as a representative model compression technique and
has seen extensive use on CNNs. However, due to the unique properties of CNNs
and ViTs, the quantization applications on ViTs are still limited and
underexplored. In this paper, we identify the difficulty of ViT quantization on
its unique variation behaviors, which differ from traditional CNN
architectures. The variations indicate the magnitude of the parameter
fluctuations and can also measure outlier conditions. Moreover, the variation
behaviors reflect the various sensitivities to the quantization of each module.
The quantization sensitivity analysis and comparison of ViTs with CNNs help us
locate the underlying differences in variations. We also find that the
variations in ViTs cause training oscillations, bringing instability during
quantization-aware training (QAT). Correspondingly, we solve the variation
problem with an efficient knowledge-distillation-based variation-aware
quantization method. The multi-crop knowledge distillation scheme can
accelerate and stabilize the training and alleviate the variation's influence
during QAT. We also proposed a module-dependent quantization scheme and a
variation-aware regularization term to suppress the oscillation of weights. On
ImageNet-1K, we obtain a 77.66% Top-1 accuracy on the extremely low-bit
scenario of 2-bit Swin-T, outperforming the previous state-of-the-art quantized
model by 3.35%.
- Abstract(参考訳): 視覚タスクにおける視覚変換器(ViT)の顕著な性能にもかかわらず、ViTの計算とモデルサイズの拡大により、トレーニングや推論における効率向上への需要が高まっている。
重い計算とパラメータの欠点に対処するため、量子化はコミュニティにおいて代表モデル圧縮技術として頻繁に研究され、CNNで広く利用されている。
しかし、CNN と ViT のユニークな性質のため、ViT 上の量子化の応用は限定的であり、未探索である。
本稿では,従来のCNNアーキテクチャと異なり,その特異な変動挙動におけるViT量子化の難しさを明らかにする。
変動はパラメータのゆらぎの大きさを示し、異常条件も測定できる。
さらに、変動挙動は各モジュールの量子化に様々な感度を反映する。
量子化感度分析とCNNとの比較は、変動の根底にある違いを見つけるのに役立ちます。
また、ViTの変動はトレーニングの振動を引き起こし、量子化対応トレーニング(QAT)中に不安定を引き起こすことも見出した。
そこで本研究では,効率的な知識蒸留に基づく変分量化手法を用いて変分問題を解く。
マルチクロップ知識蒸留方式は, 学習を加速・安定化し, qatにおける変動の影響を緩和することができる。
また,重みの振動を抑制するため,モジュール依存量子化方式と変分対応正規化項も提案した。
ImageNet-1Kでは、2ビットのSwin-Tの超低ビットシナリオで77.66%のTop-1精度が得られる。
関連論文リスト
- ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers [7.155242379236052]
ビジョントランスフォーマー(ViT)の量子化は、これらの課題を緩和するための有望なソリューションとして現れている。
既存の手法は依然として低ビットでの精度の低下に悩まされている。
ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンスセグメンテーションタスクにおいて、様々なベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2024-07-03T02:41:59Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。
本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。
PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文 参考訳(メタデータ) (2022-03-04T11:47:20Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Understanding and Overcoming the Challenges of Efficient Transformer
Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。
しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。
変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文 参考訳(メタデータ) (2021-09-27T10:57:18Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。