論文の概要: On the Convergence Analysis of Muon
- arxiv url: http://arxiv.org/abs/2505.23737v1
- Date: Thu, 29 May 2025 17:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.069149
- Title: On the Convergence Analysis of Muon
- Title(参考訳): ミューオンの収束解析について
- Authors: Wei Shen, Ruichuan Huang, Minhui Huang, Cong Shen, Jiawei Zhang,
- Abstract要約: 我々は、Muonの総合収束速度解析と、Gradient Descent(GD)との比較を示す。
我々の理論的結果は、ムオンがヘッセン行列の低ランクおよび近似ブロックワイド対角構造から恩恵を受けることができることを示している。
- 参考スコア(独自算出の注目度): 19.29806555936508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The majority of parameters in neural networks are naturally represented as matrices. However, most commonly used optimizers treat these matrix parameters as flattened vectors during optimization, potentially overlooking their inherent structural properties. Recently, an optimizer called Muon has been proposed, specifically designed to optimize matrix-structured parameters. Extensive empirical evidence shows that Muon can significantly outperform traditional optimizers when training neural networks. Nonetheless, the theoretical understanding of Muon's convergence behavior and the reasons behind its superior performance remain limited. In this work, we present a comprehensive convergence rate analysis of Muon and its comparison with Gradient Descent (GD). We further characterize the conditions under which Muon can outperform GD. Our theoretical results reveal that Muon can benefit from the low-rank and approximate blockwise diagonal structure of Hessian matrices -- phenomena widely observed in practical neural network training. Our experimental results support and corroborate the theoretical findings.
- Abstract(参考訳): ニューラルネットワークのパラメータの大部分は、自然に行列として表現される。
しかし、最もよく使われるオプティマイザは、これらの行列パラメータを最適化中に平坦なベクトルとして扱う。
近年,行列構造パラメータの最適化に特化して,Muonと呼ばれるオプティマイザが提案されている。
広範囲にわたる経験的証拠は、ニューラルネットワークのトレーニングにおいて、Muonが従来のオプティマイザを著しく上回っていることを示している。
それでも、ムオンの収束挙動の理論的理解と、その優れた性能の背後にある理由はまだ限られている。
本研究では,Muonの総合収束速度解析とGradient Descent (GD)との比較について述べる。
さらに、MuonがGDより優れている条件を特徴づける。
我々の理論的結果は、Muonがヘッセン行列の低ランクかつ近似ブロックワイドな対角構造から恩恵を受けられることを示し、実際的なニューラルネットワークトレーニングで広く見られる現象である。
実験の結果は理論的な知見を裏付け,裏付けるものである。
関連論文リスト
- PolarGrad: A Class of Matrix-Gradient Optimizers from a Unifying Preconditioning Perspective [6.497756166630786]
我々は、"マクロ認識"プリコンディショニング手法を解析するための統一フレームワークを提案する。
本稿では,行列値勾配の極分解に基づく事前条件付き最適化手法であるPolarGradを紹介する。
論文 参考訳(メタデータ) (2025-05-27T22:11:21Z) - Gauss-Newton Dynamics for Neural Networks: A Riemannian Optimization Perspective [3.48097307252416]
我々は,スムーズな活性化関数を持つニューラルネットワークを学習するためのガウスニュートン力学の収束性を分析する。
適切に選択された減衰係数を持つレバンス・マルカルト力学は、不条件カーネルに対してロバスト性をもたらすことを示す。
論文 参考訳(メタデータ) (2024-12-18T16:51:47Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Towards Demystifying the Generalization Behaviors When Neural Collapse
Emerges [132.62934175555145]
Neural Collapse(NC)は、トレーニング末期(TPT)におけるディープニューラルネットワークのよく知られた現象である
本稿では,列車の精度が100%に達した後も,継続訓練がテストセットの精度向上に繋がる理由を理論的に説明する。
我々はこの新たに発見された性質を「非保守的一般化」と呼ぶ。
論文 参考訳(メタデータ) (2023-10-12T14:29:02Z) - Stochastic normalizing flows as non-equilibrium transformations [62.997667081978825]
正規化フローは従来のモンテカルロシミュレーションよりも効率的に格子場理論をサンプリングするための経路を提供することを示す。
本稿では,この拡張された生成モデルの効率を最適化する戦略と応用例を示す。
論文 参考訳(メタデータ) (2022-01-21T19:00:18Z) - Generalization Properties of Stochastic Optimizers via Trajectory
Analysis [48.38493838310503]
本稿では,Fernique-Talagrand関数と局所パワーローの両方が一般化性能の予測可能であることを示す。
本稿では,Fernique-Talagrand関数と局所パワーローの両方が一般化性能の予測可能であることを示す。
論文 参考訳(メタデータ) (2021-08-02T10:58:32Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。