論文の概要: Insights on Muon from Simple Quadratics
- arxiv url: http://arxiv.org/abs/2602.11948v1
- Date: Thu, 12 Feb 2026 13:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.848732
- Title: Insights on Muon from Simple Quadratics
- Title(参考訳): 簡易四面体からのミューオンの展望
- Authors: Antoine Gonon, Andreea-Alexandra Muşat, Nicolas Boumal,
- Abstract要約: ミューオンは勾配の(近似的な)極性因子に沿って重量行列を更新する。
既存のパフォーマンス説明の試みは、主にシングルステップの比較に重点を置いている。
Muon を理解するには,局所的プロキシや悲観的な最悪のケース境界を越える必要がある。
- 参考スコア(独自算出の注目度): 2.8348950186890467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Muon updates weight matrices along (approximate) polar factors of the gradients and has shown strong empirical performance in large-scale training. Existing attempts at explaining its performance largely focus on single-step comparisons (on quadratic proxies) and worst-case guarantees that treat the inexactness of the polar-factor as a nuisance ``to be argued away''. We show that already on simple strongly convex functions such as $L(W)=\frac12\|W\|_{\text{F}}^2$, these perspectives are insufficient, suggesting that understanding Muon requires going beyond local proxies and pessimistic worst-case bounds. Instead, our analysis exposes two observations that already affect behavior on simple quadratics and are not well captured by prevailing abstractions: (i) approximation error in the polar step can qualitatively alter discrete-time dynamics and improve reachability and finite-time performance -- an effect practitioners exploit to tune Muon, but that existing theory largely treats as a pure accuracy compromise; and (ii) structural properties of the objective affect finite-budget constants beyond the prevailing conditioning-based explanations. Thus, any general theory covering these cases must either incorporate these ingredients explicitly or explain why they are irrelevant in the regimes of interest.
- Abstract(参考訳): ミューオンは勾配の(近似的な)極性因子に沿って重量行列を更新し、大規模トレーニングにおいて強い経験的性能を示した。
その性能を説明するための既存の試みは、主に単段階比較(二次プロキシ)と極因子の不完全性を扱う最悪のケース保証に焦点をあてている。
すでに$L(W)=\frac12\|W\|_{\text{F}}^2$のような単純な凸関数上では、これらの観点は不十分であり、ムオンを理解するためには局所プロキシや悲観的な最悪のケース境界を超える必要があることを示唆する。
その代わり、我々の分析は2つの観察結果を公開する。
(i)極ステップにおける近似誤差は、離散時間力学を定性的に修正し、到達性と有限時間性能を向上させることができる。
目的物の構造的特性は、一般的な条件に基づく説明以上の有限予算定数に影響を及ぼす。
したがって、これらの事例を包含する一般的な理論は、これらの要素を明示的に含めるか、なぜそれらが利害関係に無関係であるのかを説明する必要がある。
関連論文リスト
- Preconditioning Benefits of Spectral Orthogonalization in Muon [50.62925024212989]
線形変圧器の行列分解と文脈内学習の2つのケーススタディにおいて,ミュオンの簡易版の有効性について検討した。
解析の結果,Muonのダイナミクスはスペクトル領域内の独立したスカラー配列の集合に分解され,それぞれが同様の収束挙動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-20T00:08:31Z) - On the Sample Complexity of Learning for Blind Inverse Problems [8.091533689145908]
ブラインド逆問題(Blind inverse problem)は、フォワード作用素が部分的にあるいは完全に未知な多くの実験的な設定で生じる。
データ駆動型アプローチは、強い経験的性能と適応性を示す、視覚的逆問題に対処するために提案されている。
線形最小平均正方形推定器の簡易かつ洞察力に富んだフレームワークにおいて、視覚的逆問題における学習に光を当てた。
論文 参考訳(メタデータ) (2025-12-29T11:53:37Z) - Convergence Bound and Critical Batch Size of Muon Optimizer [1.2289361708127877]
4つの実践的な設定にまたがって、Muon の収束証明を提供する。
重み付け崩壊の付加は、より厳密な理論的境界をもたらすことを示す。
トレーニングの計算コストを最小限に抑えた,Muonのクリティカルバッチサイズを導出する。
論文 参考訳(メタデータ) (2025-07-02T11:03:13Z) - Investigating the Impact of Model Instability on Explanations and Uncertainty [43.254616360807496]
テキスト入力における不確かさを推測時に雑音を導入することでシミュレートする。
高い不確実性は必ずしも説明可能性の低さを暗示しない。
このことは、ノイズ増強モデルが不確実性のあるトークンを特定するのに優れていることを示唆している。
論文 参考訳(メタデータ) (2024-02-20T13:41:21Z) - Monotonicity and Double Descent in Uncertainty Estimation with Gaussian
Processes [52.92110730286403]
限界確率はクロスバリデーションの指標を思い起こさせるべきであり、どちらもより大きな入力次元で劣化すべきである、と一般的に信じられている。
我々は,ハイパーパラメータをチューニングすることにより,入力次元と単調に改善できることを証明した。
また、クロスバリデーションの指標は、二重降下の特徴である質的に異なる挙動を示すことも証明した。
論文 参考訳(メタデータ) (2022-10-14T08:09:33Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Causal Expectation-Maximisation [70.45873402967297]
ポリツリーグラフを特徴とするモデルにおいても因果推論はNPハードであることを示す。
我々は因果EMアルゴリズムを導入し、分類的表現変数のデータから潜伏変数の不確かさを再構築する。
我々は、反事実境界が構造方程式の知識なしにしばしば計算できるというトレンドのアイデアには、目立たずの制限があるように思える。
論文 参考訳(メタデータ) (2020-11-04T10:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。