論文の概要: AMO: Adaptive Muon Orthogonalization
- arxiv url: http://arxiv.org/abs/2605.17806v1
- Date: Mon, 18 May 2026 03:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.715805
- Title: AMO: Adaptive Muon Orthogonalization
- Title(参考訳): AMO:Adaptive Muon Orthogonalization
- Authors: Xinlin Zhuang, Panyi Ouyang, Yichen Li, Jiangming Shi, Yizhang Chen, Shuman Liu, Ying Qian, Weiyang Liu, Haibo Zhang, Imran Razzak,
- Abstract要約: 行列幾何学により行列毎の不均一性が広範に決定されることを示す。
そこで本研究では,演算子型による重み幾何計測を早期に行う観測-理論-コミット法であるAdaptive Muon Orthogonalization (AMO)を提案する。
AMOは、標準、長期、連続的な事前トレーニングにまたがって、一様スケジュールのMuonよりも一貫した改善を提供する。
- 参考スコア(独自算出の注目度): 28.545002803615606
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Muon has recently emerged as a competitive alternative to AdamW for large-scale pre-training, with orthogonalization via Newton-Schulz (NS) iterations as its core operation. Existing Muon variants apply a uniform NS schedule to all parameter matrices, overlooking possible differences in orthogonalization difficulty and its impact on performance. Through a systematic empirical study, we show that this per-matrix heterogeneity is pervasive and largely determined by matrix geometry, which evolves dynamically across operator types, training stages, and network depths. As a result, uniform NS schedules can lead to uneven orthogonalization quality across the model. Motivated by these findings, we propose Adaptive Muon Orthogonalization (AMO), an observe-then-commit method that measures weight geometry by operator type early in training and then uses these signals to allocate the NS budget for the remainder of training. AMO delivers consistent improvements over uniform-schedule Muon across standard, prolonged, and continual pre-training, surpassing the strongest baseline by +0.76 on Llama3.1-1.4B and +0.51 on Qwen3-1.7B in average downstream performance of 12 evaluation tasks.
- Abstract(参考訳): Muonは、Newton-Schulz (NS) の反復による直交化をコア操作として、大規模な事前トレーニングのためのAdamWの競合的な代替として最近登場した。
既存のムーン変種はすべてのパラメータ行列に一様NSスケジュールを適用し、直交化の難しさとその性能への影響の相違を見越す。
系統的な実証研究により, この行列の均一性は, 演算子の種類, 訓練段階, ネットワーク深度にまたがって動的に進化する行列幾何学によって, 広く普及し, 決定されることが明らかとなった。
その結果、均一なNSスケジュールは、モデル全体の不均一な直交化品質につながる可能性がある。
これらの知見を反映して,演算子タイプによる重量形状を早期に測定し,これらの信号を用いてトレーニングの残り期間のNS予算を割り当てる,Adaptive Muon Orthogonalization (AMO)を提案する。
AMOは、標準、延長、連続的な事前訓練にまたがる均一スケジュールムーンよりも一貫した改善を提供しており、Llama3.1-1.4Bでは+0.76、Qwen3-1.7Bでは+0.51、評価タスクでは平均ダウンストリーム性能ではQwen3-1.7Bで+0.76を上回っている。
関連論文リスト
- Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum [5.049533819651459]
雑音適応を伴う運動量の最初の原理的統合を提供するため、新しい対角拡張NAMOとNAMO-Dを提案する。
NAMO-D は代わりに、クランプされた成分を持つ対角行列による直交運動量を持つ。
GPT-2モデルの事前訓練実験では,AdamWモデルとMuonモデルと比較してNAMOモデルとNAMO-Dモデルの両方の性能が向上した。
論文 参考訳(メタデータ) (2026-02-19T05:00:39Z) - Variance-Adaptive Muon: Accelerating LLM Pretraining with NSR-Modulated and Variance-Scaled Momentum [19.385264518362472]
大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスク間の競合性能を達成する。
モーメントに分散適応正規化を適用するMuon-NSRとMuon-VSの2つの変種を提案する。
GPT-2 と LLaMA プレトレーニング実験により,提案手法は収束を加速し,AdamW と Muon の両ベースラインの競合よりも連続的に検証損失を減少させることを示した。
論文 参考訳(メタデータ) (2026-01-21T02:41:56Z) - MuonBP: Faster Muon via Block-Periodic Orthogonalization [24.232069944820513]
ベースラインからMuonBPへの学習率の調整方法を示し、このアルゴリズムの保証を与える。
8方向テンソルテンソルとZeROによる8Bモデルのトレーニングでは、ムオンBPは8%のムオンを達成でき、性能は劣化しない。
論文 参考訳(メタデータ) (2025-10-19T19:56:05Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - REG: A Regularization Optimizer for Robust Training Dynamics [24.850151895583494]
RACS(Row-and-Column-Scaling)オペレータは、更新ステップをより劇的な方法で正規化することにより、既存のトレーニングダイナミクスの実装が簡単になり、互換性が向上する。
我々は,我々のREGがAdamWよりも優れた性能と安定性を達成できることを実証すると同時に,AdamWトレーニングパラダイムとの整合性も維持する。
論文 参考訳(メタデータ) (2025-10-04T06:05:57Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Improving Covariance Conditioning of the SVD Meta-layer by Orthogonality [65.67315418971688]
最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-07-05T15:39:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。