論文の概要: Phases of Muon: When Muon Eclipses SignSGD
- arxiv url: http://arxiv.org/abs/2605.09552v1
- Date: Sun, 10 May 2026 14:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.308531
- Title: Phases of Muon: When Muon Eclipses SignSGD
- Title(参考訳): Muonのフェーズ: Muon Eclipse SignSGD
- Authors: Elliot Paquette, Noah Marshall, Lucas Benigni, Guangyuan Wang, Atish Agarwala, Courtney Paquette,
- Abstract要約: ミューオンと関連するスペクトルは、スケーラブルな方法として強い経験的性能を示し、しばしばアダムを上回っている。
我々は,Muonを含むスペクトルを高次元行列値最小二乗問題で解析する。
我々は,Muonが近似した(確率的な)SignSVDと,Adamのプロキシとして機能する(確率的な)SignSGDに着目し,学習行動を研究するための抽出可能なフレームワークを提供する明示的な決定論的ダイナミクスを導出する。
- 参考スコア(独自算出の注目度): 15.75466352147896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Muon and related spectral optimizers have demonstrated strong empirical performance as scalable stochastic methods, often outperforming Adam. Yet their behaviour remains poorly understood. We analyze stochastic spectral optimizers, including Muon, on a high-dimensional matrix-valued least squares problem. We derive explicit deterministic dynamics that provide a tractable framework for studying learning behaviour with a focus on (stochastic) SignSVD, which Muon approximates, and (stochastic) SignSGD, the latter serving as a proxy for Adam. Our analysis shows that for large batch size, SignSVD performs a square-root preconditioning with respect to the data covariance spectrum, while for small batch size smaller eigenmodes behave like SGD, slowing down convergence. We contrast with SignSGD which for generic covariance performs no preconditioning and has no transition, leading to different optimal learning rates and convergence characteristics. The two methods match up to a constant factor with isotropic data, but behave differently with anisotropic data. An analysis of a power law covariance model with data exponent $α$ and target exponent $β$ shows there are three phases in the $(α,β)$ plane: one where SignSGD is uniformly favored, one where SignSVD is uniformly favored, and a third where the two methods exhibit a trade-off in performance.
- Abstract(参考訳): 近年、Muonと関連するスペクトルオプティマイザはスケーラブルな確率的手法として強力な経験的性能を示しており、しばしばAdamを上回っている。
しかし、彼らの行動はあまり理解されていない。
我々は,Muonを含む確率スペクトルオプティマイザを高次元行列値最小二乗問題で解析する。
我々は,Muonが近似した(確率的な)SignSVDと,Adamのプロキシとして機能する(確率的な)SignSGDに着目し,学習行動を研究するための抽出可能なフレームワークを提供する明示的な決定論的ダイナミクスを導出する。
我々の分析では,大バッチサイズの場合,SignSVDはデータ共分散スペクトルに対して平方根前処理を行い,小バッチサイズの場合,小さな固有モードはSGDのように振舞い,収束を遅くする。
一般共分散のためのSignSGDとは対照的に、プレコンディショニングは行わず、遷移も行わず、最適学習率と収束特性が異なる。
2つの手法は等方性データと定数係数に一致するが、異方性データと異なる振る舞いをする。
データ指数$α$とターゲット指数$β$のパワーロー共分散モデルの解析は、$(α,β)$プレーンに3つのフェーズが存在することを示している:1つはSignSGDが一様に好まれる、もう1つはSignSVDが一様に好まれる、もう1つは2つのメソッドがパフォーマンス上のトレードオフを示す。
関連論文リスト
- Efficient Sampling with Discrete Diffusion Models: Sharp and Adaptive Guarantees [9.180350432640912]
連続時間マルコフ連鎖(CTMC)の定式化によるスコアベース離散拡散モデルのサンプリング効率について検討した。
一様離散拡散に対して、$$-leapingアルゴリズムは位数$tilde O(d/varepsilon)$の複雑さを達成することを示す。
離散拡散をマスキングするために,本質的な情報理論量によって収束率を制御した$$-leapingサンプルラを導入する。
論文 参考訳(メタデータ) (2026-02-16T18:48:17Z) - Exact Dynamics of Multi-class Stochastic Gradient Descent [4.1538344141902135]
ワンパス勾配勾配法(SGD)を用いて学習した多種多様な高次元最適化問題の学習・学習速度ダイナミクスを解析するためのフレームワークを開発する。
我々は、ODEのシステムに対する決定論的解という観点から、リスクや真の信号との重なり合いを含む、制限力学の関数の大規模なクラスに対して、正確な表現を与える。
論文 参考訳(メタデータ) (2025-10-15T20:31:49Z) - When Scores Learn Geometry: Rate Separations under the Manifold Hypothesis [33.93481564069631]
拡散モデルと逆問題はしばしば低雑音限界におけるデータ分布の学習として解釈される。
彼らの成功は、完全な分布ではなく、データ多様体を暗黙的に学習することから生じると我々は主張する。
スコア誤差が$o(sigma-2)$であるのに対して、特定のデータ分布を復元するにはより厳密な$o(1)$エラーが必要である。
論文 参考訳(メタデータ) (2025-09-29T15:18:43Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - Online covariance estimation for stochastic gradient descent under
Markovian sampling [20.02012768403544]
位数$Obig(sqrtd,n-1/8(log n)1/4big)$の収束率は、状態依存および状態依存マルコフサンプリングの下で確立される。
本手法はロジスティック回帰を用いた戦略分類に適用され, 学習中の特徴を適応的に修正し, 対象クラス分類に影響を与える。
論文 参考訳(メタデータ) (2023-08-03T00:21:30Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Score-based Continuous-time Discrete Diffusion Models [102.65769839899315]
連続時間マルコフ連鎖を介して逆過程が認知されるマルコフジャンププロセスを導入することにより、拡散モデルを離散変数に拡張する。
条件境界分布の単純なマッチングにより、偏りのない推定器が得られることを示す。
提案手法の有効性を,合成および実世界の音楽と画像のベンチマークで示す。
論文 参考訳(メタデータ) (2022-11-30T05:33:29Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。