論文の概要: CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training
- arxiv url: http://arxiv.org/abs/2510.18784v1
- Date: Tue, 21 Oct 2025 16:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.929285
- Title: CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training
- Title(参考訳): CAGE: 正確な量子化学習のための曲率を考慮した勾配推定
- Authors: Soroush Tabesh, Mher Safaryan, Dan Alistarh,
- Abstract要約: 量子化による損失に対応する新しいQAT法であるCAGE(Curvature-Aware Gradient Estimation)を導入する。
CAGEは、量子化によって引き起こされる損失の10%以上を、アウター緩和法により回収する。
これらの結果から, 曲率を意識した勾配補正は, 現行法を超える残りの性能ギャップを埋める可能性が示唆された。
- 参考スコア(独自算出の注目度): 43.7138637193157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant work on low-bit quantization-aware training (QAT), there is still a large accuracy gap between such techniques and native training. To address this, we introduce CAGE (Curvature-Aware Gradient Estimation), a new QAT method that augments the straight-through estimator (STE) gradient with a curvature-aware correction designed to counteract the loss increase induced by quantization. CAGE is derived from a multi-objective view of QAT that balances loss minimization with adherence to quantization constraints, yielding a principled correction term that depends on local curvature information. On the theoretical side, we introduce the notion of Pareto-optimal solutions for quantized optimization, and establish that CAGE yields strong convergence guarantees in the smooth non-convex setting. In terms of implementation, our approach is optimizer-agnostic, but we provide a highly-efficient implementation that leverages Adam statistics. When pre-training Llama-style models of up to 800M-parameters, CAGE recovers over 10% of the quantization-induced loss increase in the W4A4 regime over outlier-mitigation methods. These results indicate that curvature-aware gradient corrections can bridge the remaining performance gap beyond current outlier-handling methods.
- Abstract(参考訳): 低ビット量子化対応トレーニング(QAT)に関する大きな研究にもかかわらず、そのような技術とネイティブトレーニングの間には、依然として大きな精度のギャップがある。
そこで我々はCAGE(Curvature-Aware Gradient Estimation)という新しいQAT手法を導入し,量子化による損失増加に対処するための曲率-認識補正を施した直線スルー推定器(STE)勾配を増大させる。
CAGEは、損失最小化と量子化制約の遵守のバランスをとるQATの多目的ビューから派生し、局所曲率情報に依存する原則付き補正項を生成する。
理論的には、量子化された最適化のためのパレート最適解の概念を導入し、CAGEが滑らかな非凸設定において強い収束を保証することを確立する。
実装面では最適化非依存であるが,Adam統計を利用した高効率な実装を提供する。
最大800MパラメータのLlama型モデルを事前訓練すると、CAGEはオフリエ緩和法よりもW4A4系において量子化による損失の増加の10%以上を回復する。
これらの結果から, 曲率を考慮した勾配補正は, 現行のアウトリアハンドリング法を超えて, 残りの性能ギャップを埋めることが可能であることが示唆された。
関連論文リスト
- Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。
本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。
PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文 参考訳(メタデータ) (2025-08-27T15:59:36Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - Error-aware Quantization through Noise Tempering [43.049102196902844]
量子化対応トレーニング(QAT)は、量子化エラーをシミュレートしながら、エンドタスクに関するモデルパラメータを最適化する。
本研究では,指数関数的に減衰する量子化・エラー認識ノイズと,学習可能なタスク損失勾配のスケールを組み込んで量子化演算子の効果を近似する。
本手法は, 従来の手法を0.5-1.2%絶対値で上回り, 均一な(非混合精度)量子化のための最先端トップ1分類精度を得る。
論文 参考訳(メタデータ) (2022-12-11T20:37:50Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。