論文の概要: To Use or not to Use Muon: How Simplicity Bias in Optimizers Matters
- arxiv url: http://arxiv.org/abs/2603.00742v1
- Date: Sat, 28 Feb 2026 17:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.346585
- Title: To Use or not to Use Muon: How Simplicity Bias in Optimizers Matters
- Title(参考訳): Muonを使うか使わないか - 最適化におけるシンプルさのバイアスはいかに重要か
- Authors: Sara Dragutinović, Rajesh Ranganath,
- Abstract要約: Muonはおそらく、トレーニング速度が優れているため、最も人気がある。
本稿では、このスピードアップを駆動するメカニズムから生じる潜在的な欠点について検討する。
Muonはタスク間の共通基盤構造を明らかにするのに苦労しており、刺激的な特徴に適合する傾向にある。
- 参考スコア(独自算出の注目度): 16.624341041698013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For a long period of time, Adam has served as the ubiquitous default choice for training deep neural networks. Recently, many new optimizers have been introduced, out of which Muon has perhaps gained the highest popularity due to its superior training speed. While many papers set out to validate the benefits of Muon, our paper investigates the potential downsides stemming from the mechanism driving this speedup. We explore the biases induced when optimizing with Muon, providing theoretical analysis and its consequences to the learning trajectories and solutions learned. While the theory does provide justification for the benefits Muon brings, it also guides our intuition when coming up with a couple of examples where Muon-optimized models have disadvantages. The core problem we emphasize is that Muon optimization removes a simplicity bias that is naturally preserved by older, more thoroughly studied methods like Stochastic Gradient Descent (SGD). We take first steps toward understanding consequences this may have: Muon might struggle to uncover common underlying structure across tasks, and be more prone to fitting spurious features. More broadly, this paper should serve as a reminder: when developing new optimizers, it is essential to consider the biases they introduce, as these biases can fundamentally change a model's behavior -- for better or for worse.
- Abstract(参考訳): 長い間、Adamはディープニューラルネットワークをトレーニングするためのユビキタスなデフォルトの選択肢として機能してきた。
最近、多くの新しいオプティマイザが導入されており、その内、トレーニング速度が優れているため、おそらくMuonが最も人気を博している。
ムオンの利点を検証するために多くの論文が作成されているが、このスピードアップを駆動するメカニズムから生じる潜在的な欠点について検討する。
我々は,Muonで最適化した際のバイアスを探索し,理論解析と学習軌跡と学習した解に対する結果を提供する。
この理論は、Muonがもたらす利点を正当化するものであるが、Muon最適化モデルに欠点があるいくつかの例を思いついたときの直感も導く。
私たちが強調する中核的な問題は、Muon最適化がStochastic Gradient Descent (SGD)のようなより古い、より徹底的に研究された方法によって自然に保存される単純さのバイアスを取り除くことである。
Muonはタスク間の共通基盤構造を明らかにするのに苦労し、刺激的な機能に適合する傾向があります。
より広範に、この論文はリマインダーとして役立ちます:新しいオプティマイザを開発するとき、これらのバイアスがモデルの振る舞いを -- 良くも悪くも -- 根本的に変えることができるので、彼らが導入するバイアスを考慮することが不可欠です。
関連論文リスト
- MuonRec: Shifting the Optimizer Paradigm Beyond Adam in Scalable Generative Recommendation [60.1890607252082]
MuonRecは、提案されたMuonイテレーションをRecSysトレーニングに導入する最初のフレームワークである。
我々は、レコメンデーションモデルのためのオープンソースのトレーニングレシピを開発し、従来のシーケンシャルなレコメンデーションモデルと近代的なジェネレーティブなレコメンデーションモデルの両方で評価する。
論文 参考訳(メタデータ) (2026-02-28T02:32:44Z) - Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文 参考訳(メタデータ) (2025-12-18T14:38:39Z) - NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - FedMuon: Federated Learning with Bias-corrected LMO-based Optimization [36.00641661700195]
我々は,ミュオンがフェデレートラーニングにどのように活用できるかを考察した。
我々はFedMuonが最先端のフェデレーション学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-09-30T14:45:12Z) - Muon Outperforms Adam in Tail-End Associative Memory Learning [118.98991042050532]
機能埋め込みにかかわらず,Muonはクラス間のバランスの取れた学習を一貫して達成している。
我々の経験的観察と理論的分析により、ムオンの核となる利点が明らかとなり、その更新規則は線形連想記憶の外積構造と一致している。
論文 参考訳(メタデータ) (2025-09-30T10:04:08Z) - On the Convergence Analysis of Muon [19.29806555936508]
我々は、Muonの総合収束速度解析と、Gradient Descent(GD)との比較を示す。
我々の理論的結果は、ムオンがヘッセン行列の低ランクおよび近似ブロックワイド対角構造から恩恵を受けることができることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:58:01Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases [76.9127853906115]
拡散モデルと人間の嗜好のギャップを埋めることが、実用的生成への統合に不可欠である。
本稿では,拡散モデルの時間的帰納バイアスを利用したポリシー勾配アルゴリズムTDPO-Rを提案する。
実験の結果,報酬過小評価を緩和する手法が有効であることが示された。
論文 参考訳(メタデータ) (2024-02-13T15:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。