論文の概要: Muon is Provably Faster with Momentum Variance Reduction
- arxiv url: http://arxiv.org/abs/2512.16598v1
- Date: Thu, 18 Dec 2025 14:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.102081
- Title: Muon is Provably Faster with Momentum Variance Reduction
- Title(参考訳): Muonは、モメンタム分散低減で、おそらくより高速である
- Authors: Xun Qian, Hussein Rammal, Dmitry Kovalev, Peter Richtárik,
- Abstract要約: 近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
- 参考スコア(独自算出の注目度): 55.388203260208485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent empirical research has demonstrated that deep learning optimizers based on the linear minimization oracle (LMO) over specifically chosen Non-Euclidean norm balls, such as Muon and Scion, outperform Adam-type methods in the training of large language models. In this work, we show that such optimizers can be provably improved by replacing their vanilla momentum by momentum variance reduction (MVR). Instead of proposing and analyzing MVR variants of Muon and Scion separately, we incorporate MVR into the recently proposed Gluon framework, which captures Muon, Scion and other specific Non-Euclidean LMO-based methods as special cases, and at the same time works with a more general smoothness assumption which better captures the layer-wise structure of neural networks. In the non-convex case, we incorporate MVR into Gluon in three different ways. All of them improve the convergence rate from ${\cal O} (\frac{1}{K^{1/4}})$ to ${\cal O} (\frac{1}{K^{1/3}})$. Additionally, we provide improved rates in the star-convex case. Finally, we conduct several numerical experiments that verify the superior performance of our proposed algorithms in terms of iteration complexity.
- Abstract(参考訳): 近年の実証研究では、Muon や Scion のような特定の選択された非ユークリッド標準球に対する線形最小化オラクル(LMO)に基づくディープラーニングオプティマイザが、大規模言語モデルの訓練においてアダム型手法より優れていることが示されている。
本研究では,モーメント分散還元(MVR)により,バニラ運動量を置き換えることで,そのような最適化を確実に改善できることを示す。
Muon と Scion の MVR 変種を別々に提案・解析する代わりに、最近提案された Gluon フレームワークに MVR を組み込むことで、このフレームワークは Muon, Scion や他の特定の非ユークリッド LMO ベースのメソッドを特別なケースとして捉える。
非凸の場合、MVRをGluonに3つの異なる方法で組み込む。
これらはすべて${\cal O} (\frac{1}{K^{1/4}})$から${\cal O} (\frac{1}{K^{1/3}})$へと収束率を改善する。
また,恒星対流の場合も改善された。
最後に,提案アルゴリズムの性能を反復複雑性の観点から検証する数値実験を行った。
関連論文リスト
- An Exploration of Non-Euclidean Gradient Descent: Muon and its Many Variants [38.56190531594778]
MuonMax は学習速度の選択に敏感であるのに対して,私たちが MuonMax と呼ぶ新しい変種は,はるかに堅牢である。
我々は、勾配非ユークリッド法とモデルベース運動量(モモとして知られる)を組み合わせる方法を示す。
論文 参考訳(メタデータ) (2025-10-10T19:57:49Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - Error Feedback for Muon and Friends [80.90330715662961]
我々は、厳密な収束保証を備えた最初の通信効率非ユークリッドLMOであるEF21-Muonを紹介する。
我々の理論は、非ユークリッドの滑らかさとより一般的な$(L0, L1)$-smooth設定をカバーし、最もよく知られたユークリッドの速度と一致し、適切なノルム選択の下でより高速な収束を可能にする。
論文 参考訳(メタデータ) (2025-10-01T08:20:08Z) - On the Convergence of Muon and Beyond [31.900178928104648]
分散の低減により、Muon-MVR2 が最適な複雑性を達成できるという最初の証明を提供する。
全体として、この研究はムオン形式の最適性の最初の証明を提供する。
論文 参考訳(メタデータ) (2025-09-19T09:43:37Z) - Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order [39.25335214877435]
ダウンストリームタスクに事前訓練されたモデルを適用するには、微調整大型言語モデル(LLM)が不可欠である。
従来の一階述語アルゴリズムは、モデルサイズであまりスケールしない、禁止的なメモリと計算コストを発生させる。
メモリと計算効率の代替としてゼロオーダー(ZO)最適化法を提案する。
論文 参考訳(メタデータ) (2025-06-04T20:27:17Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。