論文の概要: Scaling Law for Quantization-Aware Training
- arxiv url: http://arxiv.org/abs/2505.14302v1
- Date: Tue, 20 May 2025 12:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.182087
- Title: Scaling Law for Quantization-Aware Training
- Title(参考訳): 量子化学習におけるスケーリング法則
- Authors: Mengzhao Chen, Chaoyi Zhang, Jing Liu, Yutao Zeng, Zeyue Xue, Zhiheng Liu, Yunshui Li, Jin Ma, Jie Huang, Xun Zhou, Ping Luo,
- Abstract要約: 量子化対応トレーニング(QAT)は、性能を維持しながらモデルの精度を低下させる。
既存のQATスケーリング法則は、トレーニングトークンの数や量子化の粒度といった重要な要素を無視している。
本稿では、モデルサイズ、トレーニングデータボリューム、量子化グループサイズの関数として量子化誤差をモデル化するQATの統一スケーリング法則を提案する。
- 参考スコア(独自算出の注目度): 41.782744728992675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demand substantial computational and memory resources, creating deployment challenges. Quantization-aware training (QAT) addresses these challenges by reducing model precision while maintaining performance. However, the scaling behavior of QAT, especially at 4-bit precision (W4A4), is not well understood. Existing QAT scaling laws often ignore key factors such as the number of training tokens and quantization granularity, which limits their applicability. This paper proposes a unified scaling law for QAT that models quantization error as a function of model size, training data volume, and quantization group size. Through 268 QAT experiments, we show that quantization error decreases as model size increases, but rises with more training tokens and coarser quantization granularity. To identify the sources of W4A4 quantization error, we decompose it into weight and activation components. Both components follow the overall trend of W4A4 quantization error, but with different sensitivities. Specifically, weight quantization error increases more rapidly with more training tokens. Further analysis shows that the activation quantization error in the FC2 layer, caused by outliers, is the primary bottleneck of W4A4 QAT quantization error. By applying mixed-precision quantization to address this bottleneck, we demonstrate that weight and activation quantization errors can converge to similar levels. Additionally, with more training data, weight quantization error eventually exceeds activation quantization error, suggesting that reducing weight quantization error is also important in such scenarios. These findings offer key insights for improving QAT research and development.
- Abstract(参考訳): 大規模言語モデル(LLM)は、かなりの計算資源とメモリ資源を必要とし、デプロイメントの課題を生み出している。
量子化対応トレーニング(QAT)は、パフォーマンスを維持しながらモデルの精度を下げることで、これらの課題に対処する。
しかし、QATのスケーリング挙動、特に4ビット精度(W4A4)はよく理解されていない。
既存のQATスケーリング法則は、トレーニングトークンの数や量子化の粒度といった重要な要素を無視し、適用性を制限することが多い。
本稿では、モデルサイズ、トレーニングデータボリューム、量子化グループサイズの関数として量子化誤差をモデル化するQATの統一スケーリング法則を提案する。
268 QAT実験により、モデルサイズが大きくなるにつれて量子化誤差は減少するが、より多くの訓練トークンや粗い量子化の粒度が増加する。
W4A4量子化誤差の原因を特定するため、重みと活性化成分に分解する。
どちらのコンポーネントもW4A4量子化誤差の全体的な傾向に従っているが、感度は異なる。
特に、重み量子化誤差は、より多くのトレーニングトークンによって急速に増加する。
さらに解析したところ、FC2層のアクティベーション量子化誤差は、外乱によって引き起こされるものであり、W4A4 QAT量子化誤差の主要なボトルネックであることがわかった。
このボトルネックに対処するために混合精度量子化を適用することにより、重みとアクティベーション量子化誤差が同様のレベルに収束できることを実証する。
さらに、より多くのトレーニングデータでは、重み量子化誤差は最終的に活性化量子化誤差を超え、重み量子化誤差の低減もそのようなシナリオにおいて重要であることを示唆している。
これらの発見は、QATの研究と開発を改善するための重要な洞察を提供する。
関連論文リスト
- Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。
我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。
我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文 参考訳(メタデータ) (2025-05-08T13:26:19Z) - Achieving binary weight and activation for LLMs using Post-Training Quantization [32.247768389896144]
大規模言語モデル(LLM)を1ビット精度に量子化することは、計算コストを大幅に削減する。
既存の量子化技術は、4ビット以下の重みとアクティベーション精度を使用する場合(W4A4)、顕著な性能劣化に悩まされる。
論文 参考訳(メタデータ) (2025-04-07T04:50:04Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - QERA: an Analytical Framework for Quantization Error Reconstruction [12.110441045050223]
重みを極めて低い精度に定量化することへの関心が高まり、結果として生じる誤差を低ランクで高精度なエラー再構成項で相殺する。
量子化と低ランク近似の組み合わせは、アダプタベースのパラメータ効率の微調整法の両方で人気がある。
本稿では,QERA(Quantization Error Reconstruction Analysis)という解析フレームワークを定式化し,その問題に対するクローズドフォームのソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-08T13:37:34Z) - PrefixQuant: Eliminating Outliers by Prefixed Tokens for Large Language Models Quantization [44.547992997369875]
様々な精度で最先端性能を実現する新しい量子化法であるPrefixQuantを提案する。
第一に、PrefixQuantはKVキャッシュにoutlierトークンをプレフィックスすることでトークン単位のoutlierを排除します。
第二に、PrefixQuantは、量子化エラーを補うためにブロックワイズトレーニングのための新しいトレーニング可能なパラメータを導入した。
論文 参考訳(メタデータ) (2024-10-07T17:59:35Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合したL4Qを提案する。
メモリ最適化レイヤ設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、トレーニングコストはLoRAに匹敵する。
この量子化法と微調整法の組み合わせにより精度が向上することを示した。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。