論文の概要: Compute-Optimal Quantization-Aware Training
- arxiv url: http://arxiv.org/abs/2509.22935v1
- Date: Fri, 26 Sep 2025 21:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.943155
- Title: Compute-Optimal Quantization-Aware Training
- Title(参考訳): Compute-Optimal Quantization-Aware Training
- Authors: Aleksandr Dremov, David Grangier, Angelos Katharopoulos, Awni Hannun,
- Abstract要約: 量子化対応トレーニング(QAT)は、量子化されたニューラルネットワークの精度を向上させるための主要な技術である。
従来の研究では、トレーニングを完全精度(FP)フェーズに分解し、QATフェーズが続くと、より優れた精度が得られることが示されている。
最終性能に及ぼすQAT時間の影響について検討する。
- 参考スコア(独自算出の注目度): 50.98555000360485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization-aware training (QAT) is a leading technique for improving the accuracy of quantized neural networks. Previous work has shown that decomposing training into a full-precision (FP) phase followed by a QAT phase yields superior accuracy compared to QAT alone. However, the optimal allocation of compute between the FP and QAT phases remains unclear. We conduct extensive experiments with various compute budgets, QAT bit widths, and model sizes from 86.0M to 2.2B to investigate how different QAT durations impact final performance. We demonstrate that, contrary to previous findings, the loss-optimal ratio of QAT to FP training increases with the total amount of compute. Moreover, the optimal fraction can be accurately predicted for a wide range of model sizes and quantization widths using the tokens-per-parameter-byte statistic. From experimental data, we derive a loss scaling law that predicts both optimal QAT ratios and final model performance across different QAT/FP compute allocation strategies and QAT bit widths. We use the scaling law to make further predictions, which we verify experimentally, including which QAT bit width is optimal under a given memory constraint and how QAT accuracy with different bit widths compares to full-precision model accuracy. Additionally, we propose a novel cooldown and QAT fusion approach that performs learning rate decay jointly with quantization-aware training, eliminating redundant full-precision model updates and achieving significant compute savings. These findings provide practical insights into efficient QAT planning and enable the training of higher-quality quantized models with the same compute budget.
- Abstract(参考訳): 量子化対応トレーニング(QAT)は、量子化されたニューラルネットワークの精度を向上させるための主要な技術である。
以前の研究では、トレーニングを完全精度(FP)フェーズに分解した後、QATフェーズはQAT単独よりも精度が高いことが示されている。
しかし、FP と QAT の位相間の計算の最適割り当ては未だ不明である。
各種計算予算,QATビット幅,モデルサイズを86.0Mから2.2Bに拡張して,QATの時間差が最終性能に与える影響について検討する。
従来の結果とは対照的に,QATとFPのトレーニングの損失-最適比は,計算総量とともに増加することが実証された。
さらに, パラメータ当たりのトークン統計量を用いて, モデルサイズと量子化幅の幅を精度良く予測できる。
実験データから、各QAT/FP計算割当戦略とQATビット幅にまたがる最適QAT比と最終モデル性能の両方を予測する損失スケーリング法則を導出する。
スケーリング法則を用いて、与えられたメモリ制約の下で、どのQATビット幅が最適か、また、異なるビット幅のQAT精度が、フル精度のモデル精度とどのように比較するかを実験的に検証する。
さらに,量子化学習と協調して学習率の減衰を行い,冗長な完全精度モデル更新を排除し,計算量を大幅に削減する,新しい冷却・QAT融合手法を提案する。
これらの結果は、効率的なQAT計画に関する実践的な洞察を与え、同じ計算予算を持つ高品質な量子化モデルのトレーニングを可能にする。
関連論文リスト
- Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - PTQAT: A Hybrid Parameter-Efficient Quantization Algorithm for 3D Perception Tasks [9.463776523295303]
ポストトレーニング量子化(PTQ)と量子アウェアトレーニング(QAT)は、2つの主流モデル量子化アプローチを表す。
本稿では,3次元知覚ネットワークの効率的な展開のための新しいハイブリッド量子化アルゴリズムPTQATを提案する。
論文 参考訳(メタデータ) (2025-08-14T11:55:21Z) - QPART: Adaptive Model Quantization and Dynamic Workload Balancing for Accuracy-aware Edge Inference [10.55165549089585]
要求固有のモデルによる推論パターンをデバイスの計算能力に合わせて計画することは、多様なシナリオに対してよりコスト効率が高く、堅牢である、と我々は主張する。
本稿では,共同モデル量子化と推論分割を統合した,精度の高いワークロードバランス推論システムを提案する。
シミュレーションの結果、全体の時間と消費電力が大幅に減少し、ペイロードは80%以上減少し、精度は1%以下に抑えられた。
論文 参考訳(メタデータ) (2025-06-30T15:03:35Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level
Continuous Sparsification [51.81850995661478]
混合精度量子化はディープニューラルネットワーク(DNN)に広く応用されている
トレーニング中のビットレベル正規化とプルーニングに基づく動的精度調整の試みは、ノイズ勾配と不安定収束に悩まされている。
安定度を向上した混合精度量子化スキームを探索するビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:44:21Z) - Optimal Clipping and Magnitude-aware Differentiation for Improved
Quantization-aware Training [8.106641866299377]
現在のプラクティスは、クリッピングしきい値スカラーを設定するためにスカラーに依存しており、最適であることを示すことはできない。
最適クリッピングスカラーを決定するアルゴリズムであるOptimally Clippeds And Vectors (OCTAV)を提案する。
OCTAVは、量子化認識トレーニング(QAT)ルーチンのイテレーション毎に、テンソル毎に、フライ時に最適なクリッピングスカラーを見つける。
論文 参考訳(メタデータ) (2022-06-13T22:15:21Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。