論文の概要: Convergence of Muon with Newton-Schulz
- arxiv url: http://arxiv.org/abs/2601.19156v1
- Date: Tue, 27 Jan 2026 03:40:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.159337
- Title: Convergence of Muon with Newton-Schulz
- Title(参考訳): ミューオンとニュートンシュルツの収束
- Authors: Gyu Yeol Kim, Min-hwan Oh,
- Abstract要約: ニュートン=シュルツを持つムオンが SVD-極イデアル化と同じ速度で定常点に収束することが証明される。
以上の結果から,低緯度ニュートン・シュルツ段数を持つムオンが,壁面時間において正極性(SVD)の挙動とより高速に一致した理由が示唆された。
- 参考スコア(独自算出の注目度): 35.61554920994471
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We analyze Muon as originally proposed and used in practice -- using the momentum orthogonalization with a few Newton-Schulz steps. The prior theoretical results replace this key step in Muon with an exact SVD-based polar factor. We prove that Muon with Newton-Schulz converges to a stationary point at the same rate as the SVD-polar idealization, up to a constant factor for a given number $q$ of Newton-Schulz steps. We further analyze this constant factor and prove that it converges to 1 doubly exponentially in $q$ and improves with the degree of the polynomial used in Newton-Schulz for approximating the orthogonalization direction. We also prove that Muon removes the typical square-root-of-rank loss compared to its vector-based counterpart, SGD with momentum. Our results explain why Muon with a few low-degree Newton-Schulz steps matches exact-polar (SVD) behavior at a much faster wall-clock time and explain how much momentum matrix orthogonalization via Newton-Schulz benefits over the vector-based optimizer. Overall, our theory justifies the practical Newton-Schulz design of Muon, narrowing its practice-theory gap.
- Abstract(参考訳): 我々は、いくつかのニュートン・シュルツステップで運動量直交化(英語版)を用いて、ムオンをもともと提案され、実際に用いられるように分析する。
前回の理論的結果は、ムオンのこの重要なステップを正確にSVDベースの極性因子に置き換えるものである。
ニュートン・シュルツをもつムオンが SVD-極イデアル化と同じ速度で定常点に収束し、与えられた数$q$のニュートン・シュルツステップの定数因子に収束することが証明される。
さらに、この定数係数を解析し、それが$q$で2倍指数的に 1 に収束することを証明し、直交方向を近似するためにニュートン=シュルツで使われる多項式の次数で改善する。
また、ムオンは運動量を持つベクトルベースの SGD と比較して、典型的な平方根の損失を除去する。
以上の結果から,低次ニュートン・シュルツ段数をもつミューオンが正確な極性(SVD)の挙動とより高速な壁面時間で一致し,ニュートン・シュルツによる運動量行列の直交化がベクトルベースオプティマイザよりもどれだけの恩恵を受けるかが説明できる。
全体として、我々の理論は実践的なニュートン・シュルツの設計を正当化し、その実践と理論のギャップを狭める。
関連論文リスト
- Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文 参考訳(メタデータ) (2025-12-18T14:38:39Z) - FedMuon: Federated Learning with Bias-corrected LMO-based Optimization [36.00641661700195]
我々は,ミュオンがフェデレートラーニングにどのように活用できるかを考察した。
我々はFedMuonが最先端のフェデレーション学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-30T14:45:12Z) - Muon Outperforms Adam in Tail-End Associative Memory Learning [118.98991042050532]
機能埋め込みにかかわらず,Muonはクラス間のバランスの取れた学習を一貫して達成している。
我々の経験的観察と理論的分析により、ムオンの核となる利点が明らかとなり、その更新規則は線形連想記憶の外積構造と一致している。
論文 参考訳(メタデータ) (2025-09-30T10:04:08Z) - AuON: A Linear-time Alternative to Semi-Orthogonal Momentum Updates [0.0]
運動量に基づく更新の半直交特性について検討し、スペクトルノルム信頼領域下での運動量更新を束縛する方法を開発した。
半直交行列を構成することなく強い性能を達成する線形時間であるAuON(正規化非線形スケーリングによる代替単位ノルム運動量更新)を提案する。
提案手法は, 双極子-コサインRMSスケーリング変換と正規化を組み合わせることで, ニュートン-シュルツ法と比較して, 有効性と計算効率の両立を実証する。
論文 参考訳(メタデータ) (2025-09-29T06:03:53Z) - On the Convergence of Muon and Beyond [31.900178928104648]
分散の低減により、Muon-MVR2 が最適な複雑性を達成できるという最初の証明を提供する。
全体として、この研究はムオン形式の最適性の最初の証明を提供する。
論文 参考訳(メタデータ) (2025-09-19T09:43:37Z) - Newton-LESS: Sparsification without Trade-offs for the Sketched Newton
Update [88.73437209862891]
2階最適化において、潜在的なボトルネックは繰り返しごとに最適化関数のヘシアン行列を計算することである。
本稿では,ガウススケッチ行列を劇的に分散させることにより,スケッチの計算コストを大幅に削減できることを示す。
ニュートン=ルネッサはガウス埋め込みとほぼ同じ問題に依存しない局所収束率を享受していることを証明した。
論文 参考訳(メタデータ) (2021-07-15T17:33:05Z) - A Newton Frank-Wolfe Method for Constrained Self-Concordant Minimization [60.90222082871258]
本稿では,制約集合上の線形最小化オラクル(LMO)を用いて,制約付き自己調和最小化問題のクラスをカラフルに解く方法を示す。
L-smoothの場合、我々の手法のLMO呼び出し数はFrank-Wolfe法とほぼ同じであることを示す。
論文 参考訳(メタデータ) (2020-02-17T15:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。