論文の概要: Convergence of Spectral Descent for Non-smooth Optimization
- arxiv url: http://arxiv.org/abs/2605.26977v1
- Date: Tue, 26 May 2026 13:02:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.172207
- Title: Convergence of Spectral Descent for Non-smooth Optimization
- Title(参考訳): 非平滑最適化のためのスペクトルの収束
- Authors: Yixuan Yang, Yuqing He, Song Li,
- Abstract要約: ムオンの現在の収束保証は滑らかさの仮定に大きく依存しており、その非滑らか収束挙動はほとんど探索されていない。
非平滑凸定式化において,SDとSDの両方に対して大域的線形収束を確立する。
混合スパースおよび高密度雑音下でのロバストな低ランク行列回復に理論的枠組みを適用した。
- 参考スコア(独自算出の注目度): 6.918561684491688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Muon optimizer has recently demonstrated remarkable empirical success in training large language models. However, the theoretical understanding of its mechanisms remains limited. Current convergence guarantees for Muon rely heavily on smoothness assumptions, leaving its non-smooth convergence behavior largely unexplored. In this work, we take a step toward bridging this gap by investigating Spectral Descent (SD), a simplified variant of Muon, together with its truncated counterpart, Truncated Spectral Descent (TSD). Under convexity, Lipschitz continuity, and sharpness conditions, we establish global linear convergence for both SD and TSD in non-smooth convex formulations. We also study regularized variants equipped with decoupled weight decay and derive sublinear convergence guarantees through their connection with Frank-Wolfe methods. Finally, we apply our theoretical framework to robust low-rank matrix recovery under mixed sparse and dense noise regimes and provide rigorous recovery guarantees. Numerical experiments support the theoretical findings and demonstrate the effectiveness of Muon-type methods for non-smooth optimization.
- Abstract(参考訳): Muonオプティマイザは、最近、大規模な言語モデルのトレーニングで顕著な成功を収めた。
しかし、そのメカニズムの理論的な理解は依然として限られている。
ムオンの現在の収束保証は滑らかさの仮定に大きく依存しており、その非滑らか収束挙動はほとんど探索されていない。
そこで本研究では,Muonの簡易版であるSpectral Descent (SD) とTruncated Spectral Descent (TSD) を併用して,このギャップを埋めるための一歩を踏み出した。
凸性、リプシッツ連続性、シャープネス条件の下では、非滑らか凸定式化において、SDとTSDの両方に対して大域線型収束を確立する。
また, 分離重み付き崩壊と, フランク=ウルフ法との接続による線形収束保証を導出する正則化変種についても検討した。
最後に, 混合スパースおよび高密度雑音条件下での低ランク行列回復に対する理論的枠組みを適用し, 厳密な回復保証を提供する。
数値実験は理論的な結果を支持し、非滑らかな最適化のためのムオン型手法の有効性を実証する。
関連論文リスト
- Constrained Stochastic Spectral Preconditioning Converges for Nonconvex Objectives [48.91820744387913]
我々は,Muon と Scions に着目した事前条件付き勾配法を開発した。
我々は,様々な凸や非還元制約を扱えるアルゴリズム群を紹介した。
論文 参考訳(メタデータ) (2026-05-12T09:36:13Z) - Preconditioning Benefits of Spectral Orthogonalization in Muon [50.62925024212989]
線形変圧器の行列分解と文脈内学習の2つのケーススタディにおいて,ミュオンの簡易版の有効性について検討した。
解析の結果,Muonのダイナミクスはスペクトル領域内の独立したスカラー配列の集合に分解され,それぞれが同様の収束挙動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-20T00:08:31Z) - On the Convergence of Muon and Beyond [31.900178928104648]
分散の低減により、Muon-MVR2 が最適な複雑性を達成できるという最初の証明を提供する。
全体として、この研究はムオン形式の最適性の最初の証明を提供する。
論文 参考訳(メタデータ) (2025-09-19T09:43:37Z) - Revisiting Convergence: Shuffling Complexity Beyond Lipschitz Smoothness [50.78508362183774]
シャッフル型勾配法はその単純さと迅速な経験的性能のために実践的に好まれる。
リプシッツ条件は一般的な機械学習スキームでは満たされないことが多い。
論文 参考訳(メタデータ) (2025-07-11T15:36:48Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Taming Nonconvex Stochastic Mirror Descent with General Bregman
Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。
トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-27T17:56:49Z) - Efficient Bound of Lipschitz Constant for Convolutional Layers by Gram
Iteration [122.51142131506639]
循環行列理論を用いて畳み込み層のスペクトルノルムに対して、精密で高速で微分可能な上界を導入する。
提案手法は, 精度, 計算コスト, スケーラビリティの観点から, 他の最先端手法よりも優れていることを示す。
これは畳み込みニューラルネットワークのリプシッツ正則化に非常に効果的であり、並行アプローチに対する競合的な結果である。
論文 参考訳(メタデータ) (2023-05-25T15:32:21Z) - Stochastic Optimization with Heavy-Tailed Noise via Accelerated Gradient
Clipping [69.9674326582747]
そこで本研究では,重み付き分散雑音を用いたスムーズな凸最適化のための,クリップ付きSSTMと呼ばれる新しい1次高速化手法を提案する。
この場合、最先端の結果を上回る新たな複雑さが証明される。
本研究は,SGDにおいて,ノイズに対する光細かな仮定を伴わずにクリッピングを施した最初の非自明な高確率複雑性境界を導出した。
論文 参考訳(メタデータ) (2020-05-21T17:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。