論文の概要: QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven
Fine Tuning
- arxiv url: http://arxiv.org/abs/2403.06497v1
- Date: Mon, 11 Mar 2024 08:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 20:05:06.886812
- Title: QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven
Fine Tuning
- Title(参考訳): QuantTune:Adaptive Outlier-Driven Fine Tuningによるモデル量子化の最適化
- Authors: Jiun-Man Chen, Yu-Hsuan Chao, Yu-Jie Wang, Ming-Der Shieh, Chih-Chung
Hsu, and Wei-Fen Lin
- Abstract要約: この研究は、これらの精度低下の原因を明らかにし、量子化フレンドリな微調整法である textbfQuantTune を提案している。
提案手法は, ViT, Bert-base, OPT など,トランスフォーマーベースモデルにおけるポストトレーニング量子化の大幅な改善を示す。
- 参考スコア(独自算出の注目度): 16.50084447690437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models have gained widespread popularity in both the
computer vision (CV) and natural language processing (NLP) fields. However,
significant challenges arise during post-training linear quantization, leading
to noticeable reductions in inference accuracy. Our study focuses on uncovering
the underlying causes of these accuracy drops and proposing a
quantization-friendly fine-tuning method, \textbf{QuantTune}. Firstly, our
analysis revealed that, on average, 65\% of quantization errors result from the
precision loss incurred by the dynamic range amplification effect of outliers
across the target Transformer-based models. Secondly, \textbf{QuantTune}
adjusts weights based on the deviation of outlier activations and effectively
constrains the dynamic ranges of the problematic activations. As a result, it
successfully mitigates the negative impact of outliers on the inference
accuracy of quantized models. Lastly, \textbf{QuantTune} can be seamlessly
integrated into the back-propagation pass in the fine-tuning process without
requiring extra complexity in inference software and hardware design. Our
approach showcases significant improvements in post-training quantization
across a range of Transformer-based models, including ViT, Bert-base, and OPT.
QuantTune reduces accuracy drops by 12.09\% at 8-bit quantization and 33.8\% at
7-bit compared to top calibration methods, outperforming state-of-the-art
solutions by over 18.84\% across ViT models.
- Abstract(参考訳): トランスフォーマーベースのモデルはコンピュータビジョン(CV)と自然言語処理(NLP)の両方で広く普及している。
しかし、訓練後の線形量子化において重大な課題が生じ、推論精度が著しく低下する。
本研究は,これらの精度低下の原因を明らかにし,量子化に親しみやすい微調整法である \textbf{QuantTune} を提案する。
解析の結果,平均65 %の量子化誤差は,ターゲットトランスフォーマーモデルにおけるアウトレーヤのダイナミックレンジ増幅効果によって生じる精度低下の結果であることがわかった。
第二に、textbf{QuantTune} は外れ値のアクティベーションの偏差に基づいて重みを調整し、問題のあるアクティベーションの動的範囲を効果的に制限する。
その結果、量子化モデルの推論精度に対する異常値の負の影響を軽減できた。
最後に、 \textbf{QuantTune} は、推論ソフトウェアやハードウェア設計の複雑さを余分に必要とせずに、微調整プロセスのバックプロパゲーションパスにシームレスに統合することができる。
提案手法は, ViT, Bert-base, OPT など,トランスフォーマーベースモデルにおけるポストトレーニング量子化の大幅な改善を示す。
quanttuneは8ビットの量子化では12.09\%、トップキャリブレーション法と比較して33.8\%、vitモデルでは18.84\%以上精度低下する。
関連論文リスト
- Variation-aware Vision Transformer Quantization [49.741297464791835]
本稿では,ViT量子化の難しさについて,その特異な変動挙動について検討する。
ViTの変動はトレーニングの振動を引き起こし、量子化対応トレーニング(QAT)中に不安定を引き起こすことが判明した。
知識蒸留に基づく変分対応量子化法を提案する。
論文 参考訳(メタデータ) (2023-07-01T13:01:39Z) - Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。
実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文 参考訳(メタデータ) (2023-06-08T02:18:58Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - Mixed Precision Post Training Quantization of Neural Networks with
Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。
我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文 参考訳(メタデータ) (2023-02-02T19:30:00Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - Quantune: Post-training Quantization of Convolutional Neural Networks
using Extreme Gradient Boosting for Fast Deployment [15.720551497037176]
本稿では,量子化の構成の探索を高速化するために,Quantune という自動チューニングを提案する。
我々は、Quantuneが6つのCNNモデルに対して0.07 0.65%の精度で、量子化の探索時間を約36.5倍削減することを示した。
論文 参考訳(メタデータ) (2022-02-10T14:05:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Quantization-Guided Training for Compact TinyML Models [8.266286436571887]
最適化された低ビット精度目標に対してDNNトレーニングを導くためのQGT(Quantization Guided Training)手法を提案する。
QGTはカスタマイズされた正規化を使用して、量子化エラーを減らしながら精度を最大化する分布に向けて重み値を促進する。
論文 参考訳(メタデータ) (2021-03-10T18:06:05Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。