論文の概要: Move on Muon : A Hamiltonian probability gradient flow perspective of Muon optimizer
- arxiv url: http://arxiv.org/abs/2605.23871v1
- Date: Fri, 22 May 2026 17:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.446008
- Title: Move on Muon : A Hamiltonian probability gradient flow perspective of Muon optimizer
- Title(参考訳): ムオン運動 : ムオン最適化器のハミルトン確率勾配流の視点
- Authors: Aratrika Mustafi, Soumya Mukherjee, Bharath K. Sriperumbudur,
- Abstract要約: 正規化ミューオンにより誘導される行列値パラメータ上で定義される確率測度空間上の勾配流を開発する。
我々は、ハミルトンエネルギーが単調に減少することを示す、正確なハミルトン散逸の恒等性を証明した。
積行列空間上のヒルベルト値特徴写像に定式化を拡張し、ブロックワイズムーン確率フローを得る。
- 参考スコア(独自算出の注目度): 6.003944904428636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a gradient flow on the space of probability measures defined on matrix-valued parameters induced by regularized Muon, an analytically smoothed version of the idealized Muon optimizer. The key observation is that the regularized orthogonalization map is the gradient of a smooth Fenchel-dual smoothing of the nuclear norm. This identifies the (regularized) Muon update as a mirror/prox step in the update variable, with momentum acting as the dual coordinate. We use this structure to lift Muon from a single matrix parameter to finite-particle probability objectives of the form $J(ρ)=R\left(\int F d ρ\right)$, a setting motivated by mean-field descriptions of neural-network training, and derive the inertial continuous-time limit. Using this structure, we derive the finite-particle continuous-time limit under the inertial scaling of step size and momentum, and then pass to a phase-space mean-field equation over probability laws on parameter-momentum pairs. The resulting flow can be shown to be a damped Hamiltonian probability dynamics whose kinetic energy is induced by the regularized Muon mirror potential. We prove an exact Hamiltonian dissipation identity, showing that the Hamiltonian energy decreases monotonically. While the target objective itself need not be monotone along the inertial Muon dynamics, under additional gradient-dominance, bounded-momentum, and curvature/alignment assumptions, we obtain continuous and discrete-time exponential convergence rates for the objective gap. We also study the well-posedness of the mean-field limit equation and establish propagation of chaos guarantees for the interacting particle system. Finally, we extend the formulation to Hilbert-valued feature maps on product matrix spaces, yielding a blockwise Muon probability flow applicable to smooth transformer mixture-of-experts models.
- Abstract(参考訳): 正規化Muonにより誘導される行列値パラメータ上で定義される確率測度空間上の勾配流を,理想化Muonオプティマイザの解析的スムーズ化バージョンとして開発する。
鍵となる観測は、正規化された直交写像は核ノルムの滑らかなフェンシェル双対滑らか化の勾配であるということである。
これは(正規化された)ミューオン更新を更新変数のミラー/プロキシステップとして識別し、モーメントが双対座標として作用する。
この構造を用いて、Muonを1つの行列パラメータから$J(ρ)=R\left(\int F d ρ\right)$という形の有限粒子確率目標へ持ち上げる。
この構造を用いて、ステップサイズと運動量の慣性スケーリングの下で有限粒子の連続時間極限を導出し、パラメータ-モーメント対上の確率則上の位相空間平均場方程式に渡す。
結果として得られる流れは、運動エネルギーが正規化されたムーンミラーポテンシャルによって誘導される減衰ハミルトン確率力学(英語版)であることが示される。
我々は、ハミルトンエネルギーが単調に減少することを示す、正確なハミルトン散逸の恒等性を証明した。
目的物自体が慣性ミューオン力学に沿って単調である必要はないが、追加の勾配支配、有界モメンタム、曲率/アライメント仮定の下で、目的物ギャップに対する連続および離散時間指数収束率を得る。
また, 平均場限界方程式の正当性について検討し, 相互作用粒子系に対するカオス保証の伝播を確立する。
最後に、この定式化を積行列空間上のヒルベルト値特徴写像に拡張し、滑らかな変圧器混合-専門家モデルに適用可能なブロックワイズ・ムーン確率フローを得る。
関連論文リスト
- Can Quantum Field Theory be Recovered from Time-Symmetric Stochastic Mechanics? Part I: Generalizing the Liouville Equation [0.0]
量子場論がハミルトン力学の時間反転不変一般化の統計力学として理解できるかどうかを考察する。
この方程式が対象場理論の観点でどの程度解釈できるかという問題は、共用論文で論じられている。
論文 参考訳(メタデータ) (2026-03-20T18:19:21Z) - Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning [72.62839712454196]
スペクトル最適化の最近の進歩、特にムーンは、スティーフェル多様体への更新ステップの制限が、トレーニングと改善を著しく加速することを示した。
我々は、この「利他的」制約は、曲率スペクトルが非常に重く、不調であることが知られているディープニューラルネットワークに最適であると主張している。
textbfShampoo の textbfStruct を利用した textbfMousse (textbfMuon textbfOptimization textbfUtilizing textbfShampoo's textbfStruct を提案する。
論文 参考訳(メタデータ) (2026-03-10T14:03:49Z) - Symmetry-protected topology and deconfined solitons in a multi-link $\mathbb{Z}_2$ gauge theory [45.88028371034407]
球殻の大円として視覚化できるリンクを持つ多重グラフ上で定義された$mathbbZ$格子ゲージ理論を研究する。
これは、ピエルズ不安定性に類似した現象の根底にある状態依存トンネル振幅につながることを示す。
行列積状態に基づいて詳細な解析を行うことで、電荷分解が電荷-摩擦化の結果生じることを証明できる。
論文 参考訳(メタデータ) (2026-03-02T22:59:25Z) - Deep Sequence Modeling with Quantum Dynamics: Language as a Wave Function [0.0]
学習時間依存ハミルトニアンの下で有限次元ヒルベルト空間上で進化する複素数値波動関数を潜在状態とするシーケンスモデリングフレームワークを導入する。
等級と相対位相を結合する2次測定演算子であるボルン則を用いて、トークン確率を抽出する。
我々は、潜在確率質量の連続性方程式を導出し、組込み診断として機能する対流を保存する。
論文 参考訳(メタデータ) (2026-02-24T23:42:18Z) - Preconditioning Benefits of Spectral Orthogonalization in Muon [50.62925024212989]
線形変圧器の行列分解と文脈内学習の2つのケーススタディにおいて,ミュオンの簡易版の有効性について検討した。
解析の結果,Muonのダイナミクスはスペクトル領域内の独立したスカラー配列の集合に分解され,それぞれが同様の収束挙動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-20T00:08:31Z) - Theory of free fermions dynamics under partial post-selected monitoring [49.1574468325115]
連続弱測定の顕微鏡的記述に基づく部分選択後のシュルディンガー方程式を導出する。
監視された普遍性への通路は, 有限部分選択で突然発生することを示す。
我々の手法は、量子軌道の任意の部分集合に対するMIPTの研究方法を確立する。
論文 参考訳(メタデータ) (2023-12-21T16:53:42Z) - Third quantization of open quantum systems: new dissipative symmetries
and connections to phase-space and Keldysh field theory formulations [77.34726150561087]
3つの方法全てを明示的に接続する方法で第3量子化の手法を再構成する。
まず、我々の定式化は、すべての二次ボゾンあるいはフェルミオンリンドブラディアンに存在する基本散逸対称性を明らかにする。
ボソンに対して、ウィグナー関数と特徴関数は密度行列の「波動関数」と考えることができる。
論文 参考訳(メタデータ) (2023-02-27T18:56:40Z) - Birth-death dynamics for sampling: Global convergence, approximations
and their asymptotics [9.011881058913184]
純粋死動力学に基づく実用的な数値システムを構築した。
核化されたダイナミクスは有限時間間隔で収束し、純粋な勾配死ダイナミクスは0に縮まる。
最後に、Gibs測度に対する核化されたダイナミクスの状態の収束に関する長時間の結果を証明する。
論文 参考訳(メタデータ) (2022-11-01T13:30:26Z) - Lindblad master equations for quantum systems coupled to dissipative
bosonic modes [0.0]
力学がボソニックモードに結合する部分系に対してリンドブラッドマスター方程式を導出する。
この形式を散逸ディックモデルに適用し、原子スピンに対するリンドブラッドマスター方程式を導出する。
このマスター方程式はディック相転移を正確に予測し、正しい定常状態を与える。
論文 参考訳(メタデータ) (2022-03-07T11:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。