論文の概要: Analysis of Muon's Convergence and Critical Batch Size
- arxiv url: http://arxiv.org/abs/2507.01598v1
- Date: Wed, 02 Jul 2025 11:03:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.163258
- Title: Analysis of Muon's Convergence and Critical Batch Size
- Title(参考訳): Muonの収束度と臨界バッチサイズの解析
- Authors: Naoki Sato, Hiroki Naganuma, Hideaki Iiduka,
- Abstract要約: 我々は、ムオンの4つの実践的不変量に対する収束証明を提供する。
加重減衰はパラメータと勾配ノルムの両方に厳密な境界をもたらすことを示す。
第一次オラクルの複雑さを最小化するMuonのクリティカルバッチサイズを導出する。
- 参考スコア(独自算出の注目度): 1.2289361708127877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a theoretical analysis of Muon, a new optimizer that leverages the inherent matrix structure of neural network parameters. We provide convergence proofs for four practical variants of Muon: with and without Nesterov momentum, and with and without weight decay. We then show that adding weight decay leads to strictly tighter bounds on both the parameter and gradient norms, and we clarify the relationship between the weight decay coefficient and the learning rate. Finally, we derive Muon's critical batch size minimizing the stochastic first-order oracle (SFO) complexity, which is the stochastic computational cost, and validate our theoretical findings with experiments.
- Abstract(参考訳): 本稿では,ニューラルネットワークパラメータの固有行列構造を利用した新しいオプティマイザであるMuonについて理論的解析を行う。
我々は、ネステロフ運動量を持つもの、ないもの、ウェイト崩壊しないもの、という4つの実践的なムオン多様体に対する収束証明を提供する。
次に, 重み劣化係数と学習速度の関係を明らかにすることにより, パラメータと勾配のノルムに厳密な境界が生じることを示した。
最後に,確率計算コストである確率的一階オラクル(SFO)の複雑性を最小化するMuonの臨界バッチサイズを導出し,実験により理論的結果を検証する。
関連論文リスト
- Transition of $α$-mixing in Random Iterations with Applications in Queuing Theory [0.0]
本研究では, 混合特性を外因性回帰器から結合論による応答へ伝達することを示す。
また,非定常環境下においても,ドリフトおよびマイノライズ条件のランダム環境におけるマルコフ連鎖について検討した。
論文 参考訳(メタデータ) (2024-10-07T14:13:37Z) - E$^2$M: Double Bounded $α$-Divergence Optimization for Tensor-based Discrete Density Estimation [3.9633191508712398]
本稿では、E$2Mアルゴリズムと呼ばれる予測最大化(EM)アルゴリズムの一般化を提案する。
Kullback-Leibler (KL) の発散に基づく代理対象の最小化に最適化を緩和することでこの問題を回避する。
このアプローチは、CP、Tucker、Trainフォーマットなど、さまざまな低ランク構造に対してフレキシブルなモデリングを提供します。
論文 参考訳(メタデータ) (2024-05-28T14:28:28Z) - Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence [65.63201894457404]
非線形微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。
鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に適合させることである。
論文 参考訳(メタデータ) (2023-05-24T20:43:47Z) - Sampling with Mollified Interaction Energy Descent [57.00583139477843]
モーフィファイド相互作用エネルギー降下(MIED)と呼ばれる新しい最適化に基づくサンプリング手法を提案する。
MIEDは、モル化相互作用エネルギー(MIE)と呼ばれる確率測度に関する新しいクラスのエネルギーを最小化する
我々は,制約のないサンプリング問題に対して,我々のアルゴリズムがSVGDのような既存の粒子ベースアルゴリズムと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-10-24T16:54:18Z) - Beyond Smoothness: Incorporating Low-Rank Analysis into Nonparametric
Density Estimation [20.38883021295225]
タッカー分解に基づく新しい非パラメトリック潜在変数モデルを提案する。
提案手法の初歩的な実装により,標準ヒストグラム推定器よりもかなりの性能向上が実証された。
論文 参考訳(メタデータ) (2022-04-02T19:45:07Z) - Controlling the Complexity and Lipschitz Constant improves polynomial
nets [55.121200972539114]
多項式ネットの結合CP分解(CCP)モデルとNested Coupled CP分解(NCP)モデルに対する新しい複雑性境界を導出する。
本研究では、6つのデータセットで実験的に評価し、モデルが逆摂動に対して頑健であるとともに精度も向上することを示す。
論文 参考訳(メタデータ) (2022-02-10T14:54:29Z) - Machine Learning and Variational Algorithms for Lattice Field Theory [1.198562319289569]
格子量子場論の研究において、格子理論を定義するパラメータは連続体物理学にアクセスする臨界性に向けて調整されなければならない。
経路積分の領域に適用される輪郭変形に基づいてモンテカルロ推定器を「変形」する手法を提案する。
我々は,フローベースMCMCが臨界減速を緩和し,オブザーシフォールドが原理的応用のばらつきを指数関数的に低減できることを実証した。
論文 参考訳(メタデータ) (2021-06-03T16:37:05Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。