論文の概要: Muon Optimizes Under Spectral Norm Constraints
- arxiv url: http://arxiv.org/abs/2506.15054v1
- Date: Wed, 18 Jun 2025 01:32:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.517742
- Title: Muon Optimizes Under Spectral Norm Constraints
- Title(参考訳): スペクトルノルム制約下でのミューオン最適化
- Authors: Lizhang Chen, Jonathan Li, Qiang Liu,
- Abstract要約: 重み行列のスペクトルノルムに制約を課す最適化問題を暗黙的に解くことを示す。
この観点は、暗黙的に正規化され制約付き最適化アルゴリズムのより広範なクラスを探索することを可能にする。
- 参考スコア(独自算出の注目度): 12.57291626702513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pursuit of faster optimization algorithms remains an active and important research direction in deep learning. Recently, the Muon optimizer [JJB+24] has demonstrated promising empirical performance, but its theoretical foundation remains less understood. In this paper, we bridge this gap and provide a theoretical analysis of Muon by placing it within the Lion-$\mathcal{K}$ family of optimizers [CLLL24]. Specifically, we show that Muon corresponds to Lion-$\mathcal{K}$ when equipped with the nuclear norm, and we leverage the theoretical results of Lion-$\mathcal{K}$ to establish that Muon (with decoupled weight decay) implicitly solves an optimization problem that enforces a constraint on the spectral norm of weight matrices. This perspective not only demystifies the implicit regularization effects of Muon but also leads to natural generalizations through varying the choice of convex map $\mathcal{K}$, allowing for the exploration of a broader class of implicitly regularized and constrained optimization algorithms.
- Abstract(参考訳): 高速な最適化アルゴリズムの追求は、ディープラーニングにおける活発で重要な研究方向である。
近年,ミュオンオプティマイザ [JJB+24] は有望な経験的性能を示したが,理論的基礎は未だ理解されていない。
本稿では,このギャップを埋め,Lion-$\mathcal{K}$ファミリ・オブ・オプティマイザ[CLLL24]に配置することで,ムオンの理論解析を行う。
具体的には、核ノルムが与えられたとき、ムオンがライオン=$\mathcal{K}$に対応し、ライオン=$\mathcal{K}$の理論結果を利用して、ムオンが重量行列のスペクトルノルムに制約を課す最適化問題を暗黙的に解くことを示す。
この観点は、ムオンの暗黙の正則化効果をデミステレーションするだけでなく、凸写像 $\mathcal{K}$ の選択によって自然な一般化をもたらすので、暗黙の正則化と制約付き最適化アルゴリズムのより広範なクラスを探索することができる。
関連論文リスト
- Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order [38.99428012275441]
ダウンストリームタスクに事前訓練されたモデルを適用するには、微調整大型言語モデル(LLM)が不可欠である。
従来の一階述語アルゴリズムは、モデルサイズであまりスケールしない、禁止的なメモリと計算コストを発生させる。
メモリと計算効率の代替としてゼロオーダー(ZO)最適化法を提案する。
論文 参考訳(メタデータ) (2025-06-04T20:27:17Z) - On the Convergence Analysis of Muon [19.29806555936508]
我々は、Muonの総合収束速度解析と、Gradient Descent(GD)との比較を示す。
我々の理論的結果は、ムオンがヘッセン行列の低ランクおよび近似ブロックワイド対角構造から恩恵を受けることができることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:58:01Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Understanding Gradient Orthogonalization for Deep Learning via Non-Euclidean Trust-Region Optimization [19.574602844234814]
動機付け行列化の理論解析を行う。
特に,非ユークリスキー信頼領域法が特別な事例であることを示す。
以上の結果から,いくつかの実測結果が得られた。
論文 参考訳(メタデータ) (2025-03-16T20:49:34Z) - Logarithmic Regret for Online KL-Regularized Reinforcement Learning [51.113248212150964]
KL正規化は、大規模言語モデルにおけるRL微調整の効率向上に重要な役割を果たしている。
経験的優位性にもかかわらず、KL-正則化RLと標準RLの理論的相違はほとんど未探索のままである。
楽観的なKL正規化オンライン文脈帯域幅アルゴリズムを提案し,その後悔の新たな分析法を提案する。
論文 参考訳(メタデータ) (2025-02-11T11:11:05Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Piecewise Linearity of Min-Norm Solution Map of a Nonconvexly Regularized Convex Sparse Model [8.586951231230596]
本稿では,各直線領域における定数空間パターン $mathbfx_star(mathbfy,da)$ について検討する。
各線形ゾーンにおける $mathbfx_star(mathbfy,da)$ の閉形式式を反復的に計算する。
論文 参考訳(メタデータ) (2023-11-30T10:39:47Z) - Optimizing Information-theoretical Generalization Bounds via Anisotropic
Noise in SGLD [73.55632827932101]
SGLDにおけるノイズ構造を操作することにより,情報理論の一般化を最適化する。
低経験的リスクを保証するために制約を課すことで、最適なノイズ共分散が期待される勾配共分散の平方根であることを証明する。
論文 参考訳(メタデータ) (2021-10-26T15:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。