論文の概要: A Convergence Analysis of Adaptive Optimizers under Floating-point Quantization
- arxiv url: http://arxiv.org/abs/2510.21314v1
- Date: Fri, 24 Oct 2025 10:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.435338
- Title: A Convergence Analysis of Adaptive Optimizers under Floating-point Quantization
- Title(参考訳): 浮動小数点量子化における適応最適化器の収束解析
- Authors: Xuan Tang, Jichu Li, Difan Zou,
- Abstract要約: 我々は、勾配、重み、状態の浮動小数点量子化の下で、アダムやムオンを含む適応収束の最初の理論的枠組みを導入する。
両アルゴリズムが完全精度のアルゴリズムに近い収束率を維持していることを示す。
我々はさらに、Adamが$beta から 1$ への依存のため、高い感度と第二モーメントの量子化重みに敏感であることを明らかにし、Muon はより弱いエラー制御を必要とするため、より堅牢である可能性がある。
- 参考スコア(独自算出の注目度): 32.97211471008323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid scaling of large language models (LLMs) has made low-precision training essential for reducing memory, improving efficiency, and enabling larger models and datasets. Existing convergence theories for adaptive optimizers, however, assume all components are exact and neglect hardware-aware quantization, leaving open the question of why low-precision training remains effective. We introduce the first theoretical framework for analyzing the convergence of adaptive optimizers, including Adam and Muon, under floating-point quantization of gradients, weights, and optimizer states (e.g., moment estimates). Within this framework, we derive convergence rates on smooth non-convex objectives under standard stochastic gradient assumptions, explicitly characterizing how quantization errors from different components affect convergence. We show that both algorithms retain rates close to their full-precision counterparts provided mantissa length scales only logarithmically with the number of iterations. Our analysis further reveals that Adam is highly sensitive to weights and second-moment quantization due to its reliance on $\beta_2 \to 1$, while Muon requires weaker error control and is thus potentially more robust. These results narrow the gap between empirical success and theoretical understanding of low-precision training methods. Numerical experiments on synthetic and real-world data corroborate our theory.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速なスケーリングにより、メモリ削減、効率の向上、より大きなモデルとデータセットの実現に、低精度のトレーニングが不可欠になった。
しかし、アダプティブオプティマイザのための既存の収束理論は、全てのコンポーネントが正確であり、ハードウェアを意識した量子化を無視していると仮定し、なぜ低精度トレーニングが有効なのかという疑問を解き放つ。
我々は、勾配、重み、最適化状態(モーメント推定など)の浮動小数点量子化の下で、アダムやムオンを含む適応最適化子の収束を分析するための最初の理論的枠組みを紹介する。
この枠組み内では、標準的な確率勾配仮定の下で、滑らかな非凸対象に対する収束率を導出し、異なる成分からの量子化誤差が収束にどのように影響するかを明確に特徴づける。
両アルゴリズムが,反復回数と対数的にしか比較できないような,完全精度のアルゴリズムに近い速度を維持していることを示す。
我々の分析により、Adamは$\beta_2 \to 1$に依存するため重みや第二モーメントの量子化に非常に敏感であることが判明した。
これらの結果は、経験的成功と低精度トレーニング手法の理論的理解のギャップを狭める。
合成および実世界のデータに関する数値実験は、我々の理論を裏付ける。
関連論文リスト
- Beyond the Ideal: Analyzing the Inexact Muon Update [54.70108543057578]
本報告では,Muonコアにおける不正確な更新の初回解析について述べる。
この不正確さと最適なステップサイズと運動量との基本的な結合を明らかにする。
論文 参考訳(メタデータ) (2025-10-22T18:01:07Z) - Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。
本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。
PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文 参考訳(メタデータ) (2025-08-27T15:59:36Z) - Convergence Bound and Critical Batch Size of Muon Optimizer [1.2289361708127877]
4つの実践的な設定にまたがって、Muon の収束証明を提供する。
重み付け崩壊の付加は、より厳密な理論的境界をもたらすことを示す。
トレーニングの計算コストを最小限に抑えた,Muonのクリティカルバッチサイズを導出する。
論文 参考訳(メタデータ) (2025-07-02T11:03:13Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - C-Learner: Constrained Learning for Causal Inference [4.370964009390564]
本稿では,両世界の最適な重み付けを実現し,安定したプラグイン推定を実現する新しいデバイアス化手法を提案する。
我々の制約学習フレームワークは、プラグイン量に対する一階誤差がゼロであるという制約の下で、最高のプラグイン推定器を解く。
論文 参考訳(メタデータ) (2024-05-15T16:38:28Z) - Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。
我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文 参考訳(メタデータ) (2022-05-22T00:34:41Z) - Exact Backpropagation in Binary Weighted Networks with Group Weight
Transformations [0.0]
量子化に基づくモデル圧縮は、推論のためのハイパフォーマンスで高速なアプローチとして機能する。
重みをバイナリ値に制限するモデルは、ユビキタスドット製品の効率的な実装を可能にします。
論文 参考訳(メタデータ) (2021-07-03T10:29:34Z) - Convergence of Meta-Learning with Task-Specific Adaptation over Partial
Parameters [152.03852111442114]
モデルに依存しないメタラーニング(MAML)は非常に成功したアルゴリズムメタラーニングの実践であるが、高い計算複雑性を持つ。
本稿では,その複雑さがANILの全体的な収束性能に大きく影響することを示す。
論文 参考訳(メタデータ) (2020-06-16T19:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。