論文の概要: Beyond Muon: MUD (MomentUm Decorrelation) for Faster Transformer Training
- arxiv url: http://arxiv.org/abs/2603.17970v1
- Date: Wed, 18 Mar 2026 17:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.860265
- Title: Beyond Muon: MUD (MomentUm Decorrelation) for Faster Transformer Training
- Title(参考訳): Beyond Muon:より高速なトランスフォーマートレーニングのためのMUD(MomentUm Decorrelation)
- Authors: Ben S. Southworth, Stephen Thomas,
- Abstract要約: MUD(MomentUm Decorrelation)は,Muonの極点更新を三角形(Cholesky様)の白化代理に置き換える補完的な白化手法である。
MUDは、調整されたAdamWとMuonよりも、10-50%のウォールクロック改善を実現している。
また,EMM-2 150Mタンパク質言語モデルのトレーニングを行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Orthogonalized-momentum optimizers such as Muon improve transformer training by approximately whitening/orthogonalizing matrix-valued momentum updates via a short polar-decomposition iteration. However, polar-factor approximations typically require multiple large matrix multiplications, and the resulting overhead can be substantial and hardware-dependent. We introduce MUD (MomentUm Decorrelation), a complementary whitening approach that replaces Muon's polar update with a triangular (Cholesky-like) whitening surrogate inspired by classical Gram--Schmidt and Gauss-Seidel ideas. We show that row-orthonormal matrices are fixed points of the MUD map, relate the inner step to symmetric Gauss-Seidel preconditioning of the Gram matrix, and prove quadratic local convergence near the fixed point. In terms of time-to-perplexity, MUD yields consistent 10-50\% wall-clock improvements over tuned AdamW and Muon in time-to-perplexity, typically converging slightly slower per step than Muon but with substantially lower optimizer overhead -- relative to Muon, MUD improves peak tokens/s by roughly $1.3-2.6\times$ across most settings and up to nearly $3\times$ on GPT-2 large on an A100. We also demonstrate training a ESM-2 150M protein language model, where MUD matches Muon-level validation perplexity in significantly less wall-clock time.
- Abstract(参考訳): Muonのような直交運動量最適化器は、短時間の極分解繰り返しによるほぼ白化/直交行列値の運動量更新によってトランスフォーマートレーニングを改善する。
しかし、分極係数近似は通常、複数の大きな行列乗法を必要とし、結果として生じるオーバーヘッドは実質的かつハードウェアに依存している。
MUD (MomentUm Decorrelation) は、ムオンの極更新を古典的なグラム・シュミットとガウス・シーデルのアイデアに触発された三角形(コールスキー様)の白化代理に置き換える補完的な白化手法である。
行正則行列が MUD マップの固定点であることを示し、内部ステップをグラム行列の対称ガウス-シーデル事前条件に関連付け、固定点付近の二次局所収束を証明した。
MUDは、時間とパープレキシティに関して、調整されたAdamWとMuonよりも連続した10-50\%のウォールクロック改善を実現している。
また,EMM-2 150Mタンパク質言語モデルのトレーニングを行った。
関連論文リスト
- Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning [72.62839712454196]
スペクトル最適化の最近の進歩、特にムーンは、スティーフェル多様体への更新ステップの制限が、トレーニングと改善を著しく加速することを示した。
我々は、この「利他的」制約は、曲率スペクトルが非常に重く、不調であることが知られているディープニューラルネットワークに最適であると主張している。
textbfShampoo の textbfStruct を利用した textbfMousse (textbfMuon textbfOptimization textbfUtilizing textbfShampoo's textbfStruct を提案する。
論文 参考訳(メタデータ) (2026-03-10T14:03:49Z) - Decoupling Variance and Scale-Invariant Updates in Adaptive Gradient Descent for Unified Vector and Matrix Optimization [14.136955342888987]
我々はAdaGradの更新を改訂し、分散適応項とスケール不変項に分解する。
これは、ベクトルベースの分散適応と行列スペクトル最適化をブリッジするフレームワークである、textbfDeVA$$textbfV$ariance $textbfA$daptationを生成する。
論文 参考訳(メタデータ) (2026-02-06T17:06:42Z) - Muon in Associative Memory Learning: Training Dynamics and Scaling Laws [23.350512542598803]
We study Muon in a linear associative memory model with softmax search and ahierarchical frequency spectrum over query-apwer pairs。
我々は、Muonがこの不均衡を緩和し、より速く、より均一な進歩をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-05T14:49:40Z) - Delving into Muon and Beyond: Deep Analysis and Extensions [8.297062899157664]
We study Muon as the p = 0 end of a family of a spectrum transformations of form U boldsymbolp V'。
RMS正規化更新は、最初のモーメント更新よりも安定した最適化をもたらす。
この結果から,Muonはスペクトル正規化の有効な形式として理解されているのがよいが,汎用的に優れた最適化手法ではないことが示唆された。
論文 参考訳(メタデータ) (2026-02-04T15:40:47Z) - OLion: Approaching the Hadamard Ideal by Intersecting Spectral and $\ell_{\infty}$ Implicit Biases [29.60546958677364]
nameAは、更新方向からのスペクトル制御と、署名更新からの座標制御を組み合わせる。
我々は、軽度で経験的に証明された対角対等方性仮定の下で収束を証明した。
nameA は運動量レベル状態のみを使用しながら、同等のチューニングの下でAdamW と Muon にマッチするか、より優れています。
論文 参考訳(メタデータ) (2026-02-01T08:59:45Z) - Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文 参考訳(メタデータ) (2025-12-18T14:38:39Z) - MARS-M: When Variance Reduction Meets Matrices [47.405031764674014]
マトリックスベースのプレコンディショニングは、大規模なニューラルネットワークのためのスカラーベースのプレコンディショニングよりも効率的であることが示されている。
我々は,MARSにおける分散低減手法をMuonと統合する新しい手法であるMARS-Mを紹介する。
言語モデリングとコンピュータビジョンタスクにおける実験結果から、MARS-Mは、様々な下流ベンチマークにおいて、一貫して損失を減らし、性能を向上することを示した。
論文 参考訳(メタデータ) (2025-10-20T16:49:22Z) - MuonBP: Faster Muon via Block-Periodic Orthogonalization [24.232069944820513]
ベースラインからMuonBPへの学習率の調整方法を示し、このアルゴリズムの保証を与える。
8方向テンソルテンソルとZeROによる8Bモデルのトレーニングでは、ムオンBPは8%のムオンを達成でき、性能は劣化しない。
論文 参考訳(メタデータ) (2025-10-19T19:56:05Z) - Scale-Invariant Regret Matching and Online Learning with Optimal Convergence: Bridging Theory and Practice in Zero-Sum Games [60.871651115241406]
ゼロサムゲームにおける理論と実践の間、何十年にもわたってかなりのシャズムが一階法によって浸食されてきた。
我々は、IREG-PRM$+$と呼ぶPRM$+$の新しいスケール不変かつパラメータフリーな変種を提案する。
ベンチマークゲームでは, PRM$+$と同等でありながら, 最適収束保証を$T-1/2$, $T-1$とする。
論文 参考訳(メタデータ) (2025-10-06T00:33:20Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。