論文の概要: Does Your Optimizer Care How You Normalize? Normalization-Optimizer Coupling in LLM Training
- arxiv url: http://arxiv.org/abs/2604.01563v1
- Date: Thu, 02 Apr 2026 03:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.206258
- Title: Does Your Optimizer Care How You Normalize? Normalization-Optimizer Coupling in LLM Training
- Title(参考訳): 最適化者は正常化を気にしているか? : LLMトレーニングにおける正規化-最適化結合
- Authors: Abdelrahman Abouzeid,
- Abstract要約: 我々は Dynamic Erf (Derf) が Muon (Jordan, 2024) と大きな負の相互作用をすることを示した。
我々の証拠は、Muonのより高速なスペクトルノルム成長下での2つのエラーモード、すなわち飽和(ロッキー圧縮)とスケールブラインドネスを示している。
ダーフが公表したデフォルトアルファとムーンを併用すると、NaNや発散を発生させることなく0.66ナットの相互作用ペナルティが生じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In LLM training, normalization layers and optimizers are typically treated as independent design choices. In a 3x2 factorial at 1B parameters and 1000 training steps, we show this assumption can fail: Dynamic Erf (Derf; Chen & Liu, 2025) suffers a large negative interaction with Muon (Jordan, 2024), with its gap to RMSNorm growing from +0.31 nats under AdamW to +0.97 under Muon, approximately three times larger. Dynamic Tanh (DyT; Zhu et al., 2025), included as a bounded-normalizer control, shows no such penalty. Our evidence points to two failure modes of erf under Muon's faster spectral-norm growth: saturation (lossy compression) and scale blindness (discarding activation magnitude). An EMA-blend that reintroduces running scale estimates recovers ~84% of the gap. Separately, reducing Derf's alpha from its published default (0.5 to 0.3) recovers ~80% by keeping erf in its near-linear regime, where it approximately preserves relative scale; this setting is not the published default of Chen & Liu (2025). Using Derf's published default alpha with Muon incurs a 0.66-nat interaction penalty without producing NaNs or divergence, making the failure easy to miss in short pilot runs.
- Abstract(参考訳): LLMトレーニングでは、通常、正規化層とオプティマイザは独立した設計選択として扱われる。
Dynamic Erf (Derf; Chen & Liu, 2025) は Muon (Jordan, 2024) と大きな負の相互作用をしており、RMSNorm とのギャップは AdamW の +0.31 個から Muon の +0.97 個まで約3倍に大きくなる。
動的Tanh(DyT; Zhu et al , 2025)は、有界正規化剤制御に含まれ、そのようなペナルティは示さない。
我々の証拠は、Muonの高速スペクトルノルム成長下での2つの障害モード、すなわち飽和(ロッキー圧縮)とスケールブラインドネス(アクティベーション等級を捨てる)を示している。
ランニングスケールの見積もりを再導入するEMAブレンドは、ギャップの約84%を回復する。
第二に、ダーフのアルファ版を発行されたデフォルト版(0.5から0.3)から減らすと、erfをほぼ相対的なスケールを保ちながら、約80%の回復が達成される(2025年)。
ダーフはデフォルトのアルファ版をムーンと共に使用し、NaNを発生させることなく0.66ナットの相互作用ペナルティを発生させ、短いパイロットランで失敗を見逃しやすくした。
関連論文リスト
- Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z) - Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文 参考訳(メタデータ) (2025-12-18T14:38:39Z) - An Improved Model-Free Decision-Estimation Coefficient with Applications in Adversarial MDPs [41.17780671950473]
構造観察による意思決定(DMSO)について検討する。
我々はDig-DECを紹介した。Dig-DECはモデルのないDECで、楽観性を排除し、情報ゲインによって純粋に探索を駆動する。
論文 参考訳(メタデータ) (2025-10-10T00:25:12Z) - MIRA: Towards Mitigating Reward Hacking in Inference-Time Alignment of T2I Diffusion Models [86.07486858219137]
拡散モデルは、テキストプロンプトに条件付けされた画像を生成するのに優れている。
得られた画像は、Aesthetic Scoresのようなスカラー報酬によって測定されるユーザ固有の基準を満たさないことが多い。
近年,ノイズ最適化による推定時間アライメントが,効率的な代替手段として浮上している。
このアプローチは報酬のハッキングに苦しめられ、モデルが高いスコアの画像を生成できるが、元のプロンプトとはかなり異なる。
論文 参考訳(メタデータ) (2025-10-02T00:47:36Z) - Error Feedback for Muon and Friends [80.90330715662961]
我々は、厳密な収束保証を備えた最初の通信効率非ユークリッドLMOであるEF21-Muonを紹介する。
我々の理論は、非ユークリッドの滑らかさとより一般的な$(L0, L1)$-smooth設定をカバーし、最もよく知られたユークリッドの速度と一致し、適切なノルム選択の下でより高速な収束を可能にする。
論文 参考訳(メタデータ) (2025-10-01T08:20:08Z) - Muon: Training and Trade-offs with Latent Attention and MoE [4.500362688166346]
小型・中型デコーダ(30M-200Mパラメータ)のみで変圧器を訓練するためのMuonの総合的理論的・実証的研究について述べる。
厳密な理論解析として, (i) 標準仮定による収束率のショーイング, (ii) 勾配の爆発を防止するスペクトル正則化特性, (iii) スティーフェル多様体上の自然勾配降下への接続, (iv) スペクトルノルムによる最も急勾配降下への同値性などを挙げる。
論文 参考訳(メタデータ) (2025-09-29T07:51:06Z) - Kourkoutas-Beta: A Sunspike-Driven Adam Optimizer with Desert Flair [0.0]
トランスフォーマーニューラルネットワークは、物理学に基づく問題にますます利用されている。
データ駆動型PDEサロゲートでは、異なる境界と初期条件からのトレーニングサンプルが不規則な損失とスパイク勾配を引き起こす可能性がある。
固定された第2モーメントベータ2がレイヤワイドな値に置き換えられるAdamスタイルの割引であるKourkoutas-Betaを紹介します。
論文 参考訳(メタデータ) (2025-08-18T15:16:54Z) - Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) (2021-07-21T16:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。