論文の概要: Scaling Law for Quantization-Aware Training
- arxiv url: http://arxiv.org/abs/2505.14302v1
- Date: Tue, 20 May 2025 12:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.182087
- Title: Scaling Law for Quantization-Aware Training
- Title(参考訳): 量子化学習におけるスケーリング法則
- Authors: Mengzhao Chen, Chaoyi Zhang, Jing Liu, Yutao Zeng, Zeyue Xue, Zhiheng Liu, Yunshui Li, Jin Ma, Jie Huang, Xun Zhou, Ping Luo,
- Abstract要約: 量子化対応トレーニング(QAT)は、性能を維持しながらモデルの精度を低下させる。
既存のQATスケーリング法則は、トレーニングトークンの数や量子化の粒度といった重要な要素を無視している。
本稿では、モデルサイズ、トレーニングデータボリューム、量子化グループサイズの関数として量子化誤差をモデル化するQATの統一スケーリング法則を提案する。
- 参考スコア(独自算出の注目度): 41.782744728992675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demand substantial computational and memory resources, creating deployment challenges. Quantization-aware training (QAT) addresses these challenges by reducing model precision while maintaining performance. However, the scaling behavior of QAT, especially at 4-bit precision (W4A4), is not well understood. Existing QAT scaling laws often ignore key factors such as the number of training tokens and quantization granularity, which limits their applicability. This paper proposes a unified scaling law for QAT that models quantization error as a function of model size, training data volume, and quantization group size. Through 268 QAT experiments, we show that quantization error decreases as model size increases, but rises with more training tokens and coarser quantization granularity. To identify the sources of W4A4 quantization error, we decompose it into weight and activation components. Both components follow the overall trend of W4A4 quantization error, but with different sensitivities. Specifically, weight quantization error increases more rapidly with more training tokens. Further analysis shows that the activation quantization error in the FC2 layer, caused by outliers, is the primary bottleneck of W4A4 QAT quantization error. By applying mixed-precision quantization to address this bottleneck, we demonstrate that weight and activation quantization errors can converge to similar levels. Additionally, with more training data, weight quantization error eventually exceeds activation quantization error, suggesting that reducing weight quantization error is also important in such scenarios. These findings offer key insights for improving QAT research and development.
- Abstract(参考訳): 大規模言語モデル(LLM)は、かなりの計算資源とメモリ資源を必要とし、デプロイメントの課題を生み出している。
量子化対応トレーニング(QAT)は、パフォーマンスを維持しながらモデルの精度を下げることで、これらの課題に対処する。
しかし、QATのスケーリング挙動、特に4ビット精度(W4A4)はよく理解されていない。
既存のQATスケーリング法則は、トレーニングトークンの数や量子化の粒度といった重要な要素を無視し、適用性を制限することが多い。
本稿では、モデルサイズ、トレーニングデータボリューム、量子化グループサイズの関数として量子化誤差をモデル化するQATの統一スケーリング法則を提案する。
268 QAT実験により、モデルサイズが大きくなるにつれて量子化誤差は減少するが、より多くの訓練トークンや粗い量子化の粒度が増加する。
W4A4量子化誤差の原因を特定するため、重みと活性化成分に分解する。
どちらのコンポーネントもW4A4量子化誤差の全体的な傾向に従っているが、感度は異なる。
特に、重み量子化誤差は、より多くのトレーニングトークンによって急速に増加する。
さらに解析したところ、FC2層のアクティベーション量子化誤差は、外乱によって引き起こされるものであり、W4A4 QAT量子化誤差の主要なボトルネックであることがわかった。
このボトルネックに対処するために混合精度量子化を適用することにより、重みとアクティベーション量子化誤差が同様のレベルに収束できることを実証する。
さらに、より多くのトレーニングデータでは、重み量子化誤差は最終的に活性化量子化誤差を超え、重み量子化誤差の低減もそのようなシナリオにおいて重要であることを示唆している。
これらの発見は、QATの研究と開発を改善するための重要な洞察を提供する。
関連論文リスト
- Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。
我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。
我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文 参考訳(メタデータ) (2025-05-08T13:26:19Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合したL4Qを提案する。
メモリ最適化レイヤ設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、トレーニングコストはLoRAに匹敵する。
この量子化法と微調整法の組み合わせにより精度が向上することを示した。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。