Fugu-MT 論文翻訳(概要): QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven Fine Tuning

論文の概要: QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven Fine Tuning

arxiv url: http://arxiv.org/abs/2403.06497v1
Date: Mon, 11 Mar 2024 08:09:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-12 20:05:06.886812
Title: QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven Fine Tuning
Title（参考訳）: QuantTune:Adaptive Outlier-Driven Fine Tuningによるモデル量子化の最適化
Authors: Jiun-Man Chen, Yu-Hsuan Chao, Yu-Jie Wang, Ming-Der Shieh, Chih-Chung Hsu, and Wei-Fen Lin
Abstract要約: この研究は、これらの精度低下の原因を明らかにし、量子化フレンドリな微調整法である textbfQuantTune を提案している。提案手法は, ViT, Bert-base, OPT など,トランスフォーマーベースモデルにおけるポストトレーニング量子化の大幅な改善を示す。
参考スコア（独自算出の注目度）: 16.50084447690437
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based models have gained widespread popularity in both the computer vision (CV) and natural language processing (NLP) fields. However, significant challenges arise during post-training linear quantization, leading to noticeable reductions in inference accuracy. Our study focuses on uncovering the underlying causes of these accuracy drops and proposing a quantization-friendly fine-tuning method, \textbf{QuantTune}. Firstly, our analysis revealed that, on average, 65\% of quantization errors result from the precision loss incurred by the dynamic range amplification effect of outliers across the target Transformer-based models. Secondly, \textbf{QuantTune} adjusts weights based on the deviation of outlier activations and effectively constrains the dynamic ranges of the problematic activations. As a result, it successfully mitigates the negative impact of outliers on the inference accuracy of quantized models. Lastly, \textbf{QuantTune} can be seamlessly integrated into the back-propagation pass in the fine-tuning process without requiring extra complexity in inference software and hardware design. Our approach showcases significant improvements in post-training quantization across a range of Transformer-based models, including ViT, Bert-base, and OPT. QuantTune reduces accuracy drops by 12.09\% at 8-bit quantization and 33.8\% at 7-bit compared to top calibration methods, outperforming state-of-the-art solutions by over 18.84\% across ViT models.
Abstract（参考訳）: トランスフォーマーベースのモデルはコンピュータビジョン(CV)と自然言語処理(NLP)の両方で広く普及している。しかし、訓練後の線形量子化において重大な課題が生じ、推論精度が著しく低下する。本研究は,これらの精度低下の原因を明らかにし,量子化に親しみやすい微調整法である \textbf{QuantTune} を提案する。解析の結果,平均65 %の量子化誤差は,ターゲットトランスフォーマーモデルにおけるアウトレーヤのダイナミックレンジ増幅効果によって生じる精度低下の結果であることがわかった。第二に、textbf{QuantTune} は外れ値のアクティベーションの偏差に基づいて重みを調整し、問題のあるアクティベーションの動的範囲を効果的に制限する。その結果、量子化モデルの推論精度に対する異常値の負の影響を軽減できた。最後に、 \textbf{QuantTune} は、推論ソフトウェアやハードウェア設計の複雑さを余分に必要とせずに、微調整プロセスのバックプロパゲーションパスにシームレスに統合することができる。提案手法は, ViT, Bert-base, OPT など,トランスフォーマーベースモデルにおけるポストトレーニング量子化の大幅な改善を示す。 quanttuneは8ビットの量子化では12.09\%、トップキャリブレーション法と比較して33.8\%、vitモデルでは18.84\%以上精度低下する。

関連論文リスト

Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文参考訳（メタデータ） (2025-05-08T13:26:19Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers [71.2294205496784]
平均摂動ヘシアン (APH) を用いた重要度推定に基づく新しいPTQ手法である textbfAPHQ-ViT を提案する。本稿では,線形量子化器を用いたAPHQ-ViTが既存のPTQ法よりも3ビット,4ビットの差が大きいことを示す。
論文参考訳（メタデータ） (2025-04-03T11:48:56Z)
QUAD: Quantization and Parameter-Efficient Tuning of LLM with Activation Decomposition [21.13478769431063]
QUID(Quantization with Activation Decomposition)は、Singular Value Decomposition(SVD)を利用して、有効4ビット量子化のためのアクティベーションアウトリアを抑制するフレームワークである。 W4A4の量子化では94パーセントの精度、W4A4/A8では98%の精度、Llama-3およびQwen-2.5モデルのパラメータ効率の微調整を実現している。
論文参考訳（メタデータ） (2025-03-25T05:03:56Z)
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。 W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。 GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers [2.0862654518798034]
本稿では,視覚変換器のための分散親和性・外乱性を考慮したポストトレーニング量子化手法を提案する。 DopQ-ViTは、現在の量子化器の非効率性を分析し、TanQと呼ばれる分布に優しいタン量子化器を導入する。 DopQ-ViTは広範囲に検証され、量子化モデルの性能が大幅に向上した。
論文参考訳（メタデータ） (2024-08-06T16:40:04Z)
Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文参考訳（メタデータ） (2024-07-09T12:06:03Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文参考訳（メタデータ） (2023-06-08T02:18:58Z)
Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。 APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文参考訳（メタデータ） (2023-03-25T03:05:26Z)
Oscillation-free Quantization for Low-bit Vision Transformers [36.64352091626433]
重み振動は量子化対応トレーニングの好ましくない副作用である。本稿では,一般的な学習可能スケール法と比較して量子化を改善する3つの手法を提案する。当社のアルゴリズムはImageNetの精度を大幅に向上させる。
論文参考訳（メタデータ） (2023-02-04T17:40:39Z)
Mixed Precision Post Training Quantization of Neural Networks with Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文参考訳（メタデータ） (2023-02-02T19:30:00Z)
SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文参考訳（メタデータ） (2022-10-13T16:52:19Z)
Mixed Precision of Quantization of Transformer Language Models for Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。最適局所精度設定は2つの手法を用いて自動的に学習される。 Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文参考訳（メタデータ） (2021-11-29T09:57:00Z)
Quantization-Guided Training for Compact TinyML Models [8.266286436571887]
最適化された低ビット精度目標に対してDNNトレーニングを導くためのQGT(Quantization Guided Training)手法を提案する。 QGTはカスタマイズされた正規化を使用して、量子化エラーを減らしながら精度を最大化する分布に向けて重み値を促進する。
論文参考訳（メタデータ） (2021-03-10T18:06:05Z)
Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文参考訳（メタデータ） (2020-04-15T20:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。