論文の概要: DynMuon: A Dynamic Spectral Shaping View of Muon
- arxiv url: http://arxiv.org/abs/2605.17109v2
- Date: Fri, 22 May 2026 06:10:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:19.982871
- Title: DynMuon: A Dynamic Spectral Shaping View of Muon
- Title(参考訳): DynMuon: Muon の動的スペクトルシェーピングビュー
- Authors: Fangzhou Wu, Rikhav Shah, Sandeep Silwal, Qiuyi Zhang,
- Abstract要約: M$を$Up Vtop$に置き換え、あるパラメータを$p$にします。
そこで我々はDynMuonを提案する。DynMuonは、トレーニング時に正からわずかに負に$p$をスケジュールする効率的な動的スペクトル整形法である。
- 参考スコア(独自算出の注目度): 12.175075916077702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Muon has emerged as the dominant method for training large language models, and transformers more broadly. The essential difference, when compared to standard gradient descent methods, is to replace the usual update matrix $M=UΣV^\top$ with its polar factor $UV^\top$. In this work, we consider a class of Muon-like updates, where we replace the update $M$ with $UΣ^p V^\top$ for some parameter $p$. We call this a "spectral-shaping" operation, and develop a theory of how to pick $p$ which depends on (a) local curvature of the loss function, (b) noise stemming from stochastic gradients and label noise, and (c) training stage. Our theory and experimentation reveal a previously overlooked behavior: positive $p$ helps early by emphasizing high-curvature directions and accelerating signal contraction, while mildly negative $p$ helps later by reallocating update strength toward low-curvature directions that still contain useful training signals. Building on the insight, we propose DynMuon, an efficient dynamic spectral shaping method that schedules $p$ from positive to mildly negative over training. Extensive experiments across model sizes, architectures, and training settings show that DynMuon consistently achieves lower validation loss than Muon, while requiring 10.6-26.5% fewer steps to reach the same target loss.
- Abstract(参考訳): 近年、Muonは大規模な言語モデルをトレーニングする主要な方法として登場し、トランスフォーマーはより広くなっている。
標準勾配降下法と比較して重要な違いは、通常の更新行列 $M=UΣV^\top$ を極係数 $UV^\top$ に置き換えることである。
ここでは、M$を$UΣ^p V^\top$に置き換え、あるパラメータを$p$に置き換える。
これを「スペクトル整形」演算と呼び、それに依存する$p$を選ぶ方法の理論を開発する。
a)損失関数の局所曲率
b)確率勾配とラベル雑音から生じる雑音
(c)訓練段階。
正の$p$は、高い曲率の方向を強調し、信号の収縮を加速するのに対し、わずかに負の$p$は、有用な訓練信号を含む低曲率方向への更新強度を最大化するのに役立つ。
この知見に基づいてDynMuonを提案する。DynMuonは、トレーニング時に正からわずかに負に$p$をスケジュールする効率的な動的スペクトル整形法である。
モデルサイズ、アーキテクチャ、トレーニング設定の広範な実験により、DynMuonはムーンよりも一貫して低い検証損失を達成し、同じ目標損失に到達するためには10.6~26.5%のステップを要した。
関連論文リスト
- Spectral Flattening Is All Muon Needs: How Orthogonalization Controls Learning Rate and Convergence [15.754779716816174]
ムオンの最大安定ステップサイズは、最大ではなく、勾配の平均特異値でスケールすることを示す。
我々はMuonを事前条件付き勾配法として再評価し、Kronecker-factored curvatureモデルの下で有効収束係数を改善することを示す。
論文 参考訳(メタデータ) (2026-05-13T06:54:01Z) - Muown: Row-Norm Control for Muon Optimization [41.541871767555484]
Muonは、言語モデルの事前トレーニングにおいてAdamWと強く競合する。
Muownは、Muon、SOAP、AdamW、Lionの複雑さを改善します。
論文 参考訳(メタデータ) (2026-05-11T16:26:06Z) - Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward [69.99652051809737]
本研究では,検証自由な内在性勾配項再帰(VIGOR)を提案する。
VIGORはポリシーモデルのみを使用する単純な報酬です。
数学データのみに基づいてトレーニングされた場合、コードベンチマークへのクロスドメイン転送を示す。
論文 参考訳(メタデータ) (2026-05-11T03:15:37Z) - Muon$^2$: Boosting Muon via Adaptive Second-Moment Preconditioning [18.570226339282296]
Muonは、大規模な基礎モデル事前トレーニングのための有望な計算として登場した。
メモリオーバーヘッドが無視できるMuon$2$のゲインをほとんど保存するメモリ効率の係数化変種であるMuon$2$を提案する。
論文 参考訳(メタデータ) (2026-04-11T00:27:40Z) - The Newton-Muon Optimizer [2.1583596008762935]
我々は,Muonの設計イテレーションに新たな光を放つ代理モデルを導入する。
Newton-Muonと呼ばれる新しい最適化手法は、標準のMuonを暗黙のNewton-typeメソッドとして解釈できることを示している。
論文 参考訳(メタデータ) (2026-04-01T23:29:08Z) - Muon in Associative Memory Learning: Training Dynamics and Scaling Laws [23.350512542598803]
We study Muon in a linear associative memory model with softmax search and ahierarchical frequency spectrum over query-apwer pairs。
我々は、Muonがこの不均衡を緩和し、より速く、より均一な進歩をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-05T14:49:40Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - High-dimensional Asymptotics of Feature Learning: How One Gradient Step
Improves the Representation [89.21686761957383]
2層ネットワークにおける第1層パラメータ $boldsymbolW$ の勾配降下ステップについて検討した。
我々の結果は、一つのステップでもランダムな特徴に対してかなりの優位性が得られることを示した。
論文 参考訳(メタデータ) (2022-05-03T12:09:59Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。