論文の概要: Understanding Quantization of Optimizer States in LLM Pre-training: Dynamics of State Staleness and Effectiveness of State Resets
- arxiv url: http://arxiv.org/abs/2603.16731v1
- Date: Tue, 17 Mar 2026 16:14:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.401585
- Title: Understanding Quantization of Optimizer States in LLM Pre-training: Dynamics of State Staleness and Effectiveness of State Resets
- Title(参考訳): LLM事前学習における最適化状態の量子化:状態安定性のダイナミクスと状態リセットの有効性
- Authors: Kristi Topollai, Anna Choromanska,
- Abstract要約: 我々は,低精度指数移動平均 (EMA) 状態について検討し,量子化が同じ保存値に多くの名目更新を引き起こすことを示す。
本研究では,1段階の停止確率を推定し,時間の経過とともに停止する確率を推定する簡易なストールの予測モデルを構築した。
この観点は、なぜ状態リセットが低い精度で役立つのかという力学的な説明を提供する。
- 参考スコア(独自算出の注目度): 10.325245543844245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantizing optimizer states is becoming an important ingredient of memory-efficient large-scale pre-training, but the resulting optimizer dynamics remain only partially understood. We study low-precision exponential moving average (EMA) optimizer states and show how quantization can cause many nominal updates to round back to the same stored value, making the state effectively stale and slowing adaptation beyond what the nominal decay would suggest. We then develop a simple predictive model of stalling that estimates one-step stalling probabilities and characterizes how stalling builds up over time after the initialization. This perspective provides a mechanistic explanation for why optimizer-state resets help in low precision: once a quantized EMA becomes effectively stale, resetting it can temporarily restore responsiveness. Motivated by this picture, we derive a simple theory-guided method for choosing useful reset periods, showing that in low precision the key question is not only whether resets help, but when they should be applied. Experiments in controlled simulations and LLM pre-training show that suitable reset schedules recover the performance lost to low-precision state storage while substantially reducing optimizer-state memory.
- Abstract(参考訳): 最適化状態の量子化は、メモリ効率の高い大規模事前学習の重要な要素となっているが、結果の最適化ダイナミクスは部分的には理解されていない。
我々は,低精度指数移動平均(EMA)オプティマイザ状態について検討し,量子化が同じ保存値に多くの名目更新を引き起こすことを示す。
そこで我々は,1段階の停止確率を推定し,初期化後の停止の時間的変化を特徴付ける,単純なストールの予測モデルを構築した。
この観点は、なぜオプティマイザ状態のリセットが低い精度で役立つのかというメカニカルな説明を提供する。
この図により、有用なリセット期間を選択するためのシンプルな理論誘導法が導出され、低精度では、重要な問題はリセットが助けになるかどうかではなく、いつ適用されるべきなのかを示す。
制御されたシミュレーションとLLM事前学習実験により、適切なリセットスケジュールが低精度状態記憶装置に失われる性能を回復し、オプティマイザ・ステートメモリを大幅に削減することを示した。
関連論文リスト
- Stochastic Resetting Accelerates Policy Convergence in Reinforcement Learning [5.900714266080361]
リセットは、ファーストパスプロパティを最適化するための強力なメカニズムである。
リセットは、純粋な拡散剤の探索時間を短縮しない場合でも収束を加速することを示す。
ニューラルネットワークに基づく値近似を用いた連続制御タスクにおいて、探索が困難な場合、ランダムリセットにより深層強化学習が向上することを示す。
論文 参考訳(メタデータ) (2026-03-17T17:50:32Z) - The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - Fast Training of Recurrent Neural Networks with Stationary State Feedbacks [48.22082789438538]
リカレントニューラルネットワーク(RNN)は最近、Transformerよりも強力なパフォーマンスと高速な推論を実証している。
BPTTを固定勾配フィードバック機構で置き換える新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-29T14:45:52Z) - Instance-dependent Early Stopping [57.912273923450726]
本稿では,早期停止機構をトレーニングセット全体からインスタンスレベルに適応させる,インスタンス依存早期停止(IES)手法を提案する。
IES は、損失値の2階差が 0 付近の小さな範囲に留まっている場合、インスタンスをマスタードとみなす。
IESは、モデルのテスト精度と転送学習性能を維持したり、わずかに改善したりしながら、バックプロパゲーションインスタンスを10%から50%削減することができる。
論文 参考訳(メタデータ) (2025-02-11T13:34:09Z) - Initial-state-dependent quantum speed limit for dissipative state
preparation: Framework and optimization [6.211723927647019]
我々は、エネルギー固有状態の1つであるマルコフ散逸状態準備スキームに焦点をあてる。
我々は、実際の進化時間のより洗練された測定値を提供する初期状態依存量子速度制限(QSL)を導出する。
本稿では,ベル状態作成のための散逸型Rydberg原子系において,我々の戦略の有効性を実証する。
論文 参考訳(メタデータ) (2023-03-23T00:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。