論文の概要: AMUSE: Anytime Muon with Stable Gradient Evaluation
- arxiv url: http://arxiv.org/abs/2605.22432v1
- Date: Thu, 21 May 2026 12:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.261298
- Title: AMUSE: Anytime Muon with Stable Gradient Evaluation
- Title(参考訳): AMUSE: 安定したグラディエント評価を備えたいつでもミューオン
- Authors: Jueun Kim, Baekrok Shin, Jihun Yun, Beomhan Baek, Minhak Song, Chulhee Yun,
- Abstract要約: 本研究は,平らで低曲率なバルク部分空間に沿って,ムーンを河川-谷の損失景観から調査するものである。
本研究では,Muonの急激なバルク進行とSchedule-Free平均化の安定化効果を統合した安定勾配評価(AMUSE)を用いたAnytime MUonを提案する。
- 参考スコア(独自算出の注目度): 25.647698512832648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern deep learning commonly relies on AdamW with prescribed learning rate schedules, but recent works challenge both components: Schedule-Free optimization removes explicit schedules via iterate averaging, and Muon improves the update geometry by orthogonalizing momentum for matrix parameters. Despite Muon's strong empirical performance, its underlying mechanism remains partially understood. We study Muon through the river-valley loss landscape, where useful training progress occurs along a flat, low-curvature bulk subspace (the river), while high-curvature dominant directions form steep valley walls that induce oscillations. We empirically show that while Muon's orthogonalization accelerates river progress by increasing the bulk component, it also amplifies dominant-direction noise, causing oscillatory trajectories. Building on this, we propose Anytime MUon with Stable gradient Evaluation (AMUSE), which integrates Muon's rapid bulk progress with the stabilizing effect of Schedule-Free averaging. AMUSE uses a time-varying interpolation coefficient that initially evaluates gradients near the fast Muon sequence for rapid adaptation, then gradually shifts toward the stable averaged sequence to suppress valley-wall oscillations. As a result, AMUSE requires no learning rate schedules and supports anytime training. Across vision tasks and large language model pretraining, AMUSE consistently improves the performance-iteration Pareto frontier over (Schedule-Free) AdamW and Muon.
- Abstract(参考訳): 現代のディープラーニングは、AdamWに所定の学習率スケジュールを依存しているが、最近の研究は、両方のコンポーネントに挑戦している。 スケジュールフリー最適化は、反復平均化によって明示的なスケジュールを削除し、Muonは、行列パラメータの直交運動量によって更新幾何を改善する。
ムオンの強い経験的性能にもかかわらず、その基盤となるメカニズムは部分的には理解されていない。
本研究は,ムオン川流域における河川-谷の損失地形を解析し,平坦で低曲率なバルク部分空間(川)に沿ってトレーニングを行うとともに,高曲率で支配的な方向が急な谷壁を形成し,振動を誘発する。
実験により,Muonの直交化はバルク成分の増加によって河川の進行を加速させるが,支配的な指向性ノイズを増幅し,振動軌道を生じさせることを示した。
そこで本研究では,Muonの急激なバルク進展とSchedule-Free Averagingの安定化効果を統合した安定勾配評価(AMUSE)を用いたAnytime MUonを提案する。
AMUSEは時間変化の補間係数を用いて、最初は高速なミューオン系列付近の勾配を評価し、その後、安定な平均列へと徐々にシフトして谷壁振動を抑制する。
その結果、AMUSEは学習率のスケジュールを必要とせず、いつでもトレーニングをサポートする。
ビジョンタスクと大規模な言語モデルの事前トレーニングを通じて、AMUSEは、(スケジュールフリーの)AdamWとMuonによるパフォーマンスイテレーションのParetoフロンティアを一貫して改善します。
関連論文リスト
- DynMuon: A Dynamic Spectral Shaping View of Muon [12.175075916077702]
M$を$Up Vtop$に置き換え、あるパラメータを$p$にします。
そこで我々はDynMuonを提案する。DynMuonは、トレーニング時に正からわずかに負に$p$をスケジュールする効率的な動的スペクトル整形法である。
論文 参考訳(メタデータ) (2026-05-16T18:30:11Z) - Spectral Flattening Is All Muon Needs: How Orthogonalization Controls Learning Rate and Convergence [15.754779716816174]
ムオンの最大安定ステップサイズは、最大ではなく、勾配の平均特異値でスケールすることを示す。
我々はMuonを事前条件付き勾配法として再評価し、Kronecker-factored curvatureモデルの下で有効収束係数を改善することを示す。
論文 参考訳(メタデータ) (2026-05-13T06:54:01Z) - Muown: Row-Norm Control for Muon Optimization [41.541871767555484]
Muonは、言語モデルの事前トレーニングにおいてAdamWと強く競合する。
Muownは、Muon、SOAP、AdamW、Lionの複雑さを改善します。
論文 参考訳(メタデータ) (2026-05-11T16:26:06Z) - Sharp Capacity Scaling of Spectral Optimizers in Learning Associative Memory [77.27772368491698]
Muonのようなスペクトルは、最近、大規模な言語モデルトレーニングにおいて、強い経験的パフォーマンスを示している。
我々はこの問題を線形連想記憶問題を通して研究する。
また,Muonの貯蔵能力はSGDよりも有意に高いことがわかった。
論文 参考訳(メタデータ) (2026-03-27T16:13:18Z) - Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning [72.62839712454196]
スペクトル最適化の最近の進歩、特にムーンは、スティーフェル多様体への更新ステップの制限が、トレーニングと改善を著しく加速することを示した。
我々は、この「利他的」制約は、曲率スペクトルが非常に重く、不調であることが知られているディープニューラルネットワークに最適であると主張している。
textbfShampoo の textbfStruct を利用した textbfMousse (textbfMuon textbfOptimization textbfUtilizing textbfShampoo's textbfStruct を提案する。
論文 参考訳(メタデータ) (2026-03-10T14:03:49Z) - Muon in Associative Memory Learning: Training Dynamics and Scaling Laws [23.350512542598803]
We study Muon in a linear associative memory model with softmax search and ahierarchical frequency spectrum over query-apwer pairs。
我々は、Muonがこの不均衡を緩和し、より速く、より均一な進歩をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-05T14:49:40Z) - Variance-Adaptive Muon: Accelerating LLM Pretraining with NSR-Modulated and Variance-Scaled Momentum [19.385264518362472]
大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスク間の競合性能を達成する。
モーメントに分散適応正規化を適用するMuon-NSRとMuon-VSの2つの変種を提案する。
GPT-2 と LLaMA プレトレーニング実験により,提案手法は収束を加速し,AdamW と Muon の両ベースラインの競合よりも連続的に検証損失を減少させることを示した。
論文 参考訳(メタデータ) (2026-01-21T02:41:56Z) - Understanding Warmup-Stable-Decay Learning Rates: A River Valley Loss Landscape Perspective [66.80315289020487]
Warmup-Stable-Decay (WSD) スケジュールは、一定の学習率を使用して、所定の計算予算なしで無限に継続できるイテレーションのメインブランチを生成する。
プレトレーニング損失は,河底に川がある深い谷に類似した河谷景観を呈することを示す。
この理論にインスパイアされたWSD-Sは、従来のチェックポイントの崩壊フェーズを再利用し、メインブランチを1つだけ保持するWSDの変種である。
論文 参考訳(メタデータ) (2024-10-07T16:49:39Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。