論文の概要: Beyond Outliers: A Study of Optimizers Under Quantization
- arxiv url: http://arxiv.org/abs/2509.23500v1
- Date: Sat, 27 Sep 2025 21:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.263936
- Title: Beyond Outliers: A Study of Optimizers Under Quantization
- Title(参考訳): 外れ値を超える:量子化下での最適化に関する研究
- Authors: Georgios Vlassis, Saleh Ashkboos, Alexandra Volkova, Torsten Hoefler, Dan Alistarh,
- Abstract要約: 量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
- 参考スコア(独自算出の注目度): 82.75879062804955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As new optimizers gain traction and model quantization becomes standard for efficient deployment, a key question arises: how does the choice of optimizer affect model performance in the presence of quantization? Despite progress in both areas, systematic evidence on optimizer-quantization interactions remains limited. To fill this gap, we study the impact of optimizer choice on model robustness under quantization, considering both post-training quantization (PTQ), and quantization-aware training (QAT). We first train full-precision models, ranging from 50M to 1.5B parameters, with six optimizers, to explore the hyperparameter landscape, and establish well-tuned baselines. We then apply PTQ to evaluate how model performance degrades when trained with different optimizers. We find that outlier-related metrics, such as the max-to-mean ratio (MMR) and Kurtosis, fail to predict the PTQ performance across different optimizers. We show analytically that this is due to the MMR capturing only isolated layer errors, while ignoring how quantization errors accumulate and propagate through the network. To study the QAT degradation, we train quantized models from scratch and compare them to our original-precision baselines. We find that optimizers performing well in the original pretraining setup may not remain optimal under QAT, and that models trained with Shampoo show the lowest accuracy degradation. Finally, we derive scaling laws for quantization-aware training under different optimizers, showing that Shampoo achieves the highest parameter efficiency of all tested optimizers.
- Abstract(参考訳): 新しいオプティマイザが勢いを増し、モデル量子化が効率的なデプロイメントの標準となるにつれ、重要な疑問が生じる。
どちらの分野でも進歩しているにもかかわらず、オプティマイザ-量子化相互作用に関する体系的な証拠は依然として限られている。
このギャップを埋めるために、学習後量子化(PTQ)と量子化対応トレーニング(QAT)の両方を考慮して、量子化下のモデルロバスト性に対するオプティマイザ選択の影響について検討する。
まず,5000Mから1.5Bのパラメータを6つの最適化器でトレーニングし,ハイパーパラメータの風景を探索し,高度に調整されたベースラインを確立する。
次に、PTQを適用して、異なるオプティマイザでトレーニングした場合のモデル性能の劣化を評価する。
その結果,最大平均比 (MMR) やクルトシス (Kurtosis) といった外乱関連指標は,異なる最適化器間でPTQ性能を予測できないことがわかった。
これは、MMRが分離された層エラーのみをキャプチャし、量子化エラーがネットワークを介してどのように蓄積して伝播するかを無視したためである。
QAT劣化を研究するために、スクラッチから量子化されたモデルをトレーニングし、元の精度ベースラインと比較する。
また,本モデルでは,初期事前訓練では最適動作が得られず,シャンプーでトレーニングしたモデルでは精度の低下が最少であることが示唆された。
最後に、異なるオプティマイザによる量子化対応トレーニングのスケーリング法則を導出し、シャンプーが全テストオプティマイザの最大パラメータ効率を達成することを示す。
関連論文リスト
- Compute-Optimal Quantization-Aware Training [50.98555000360485]
量子化対応トレーニング(QAT)は、量子化されたニューラルネットワークの精度を向上させるための主要な技術である。
従来の研究では、トレーニングを完全精度(FP)フェーズに分解し、QATフェーズが続くと、より優れた精度が得られることが示されている。
最終性能に及ぼすQAT時間の影響について検討する。
論文 参考訳(メタデータ) (2025-09-26T21:09:54Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Towards Accurate Post-training Quantization for Reparameterized Models [6.158896686945439]
現在のポストトレーニング量子化法(PTQ)は、しばしばかなりの精度の劣化を引き起こす。
これは主にチャネル特異的およびサンプル特異的な外れ値によって引き起こされる。
本稿では、量子化された再パラメータ化モデルの精度を維持する新しいフレームワークであるRepAPQを提案する。
論文 参考訳(メタデータ) (2024-02-25T15:42:12Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。