論文の概要: MuCon: Clipped Muon Updates for LLM Training
- arxiv url: http://arxiv.org/abs/2605.26459v1
- Date: Tue, 26 May 2026 02:16:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.576817
- Title: MuCon: Clipped Muon Updates for LLM Training
- Title(参考訳): MuCon: Clipped Muon Updates for LLM Training
- Authors: Albert Yi,
- Abstract要約: Muon-style は行列値の運動量または事前条件の更新$B = U operatornamediag(_1,ldots,_r) Vtop$ を、標準偏極係数 $operatornamePol(B) = U Vtop$ に置き換える。
MuCon は、同じ Muon 行列に対して特異値クリッピングを適用し、$DmathrmMuCon_(B) = operatornameMClip_(B) = U である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Muon-style optimizers take a matrix-valued momentum or preconditioned update $B = U \operatorname{diag}(σ_1,\ldots,σ_r) V^\top$ and replace it with its canonical partial polar factor $\operatorname{Pol}(B) = U V^\top$. This maps every nonzero singular value to one. MuCon is the clipped-Muon variant studied here: it applies singular-value clipping to the same Muon matrix, $D^{\mathrm{MuCon}}\_τ(B) = \operatorname{MClip}\_τ(B) = U \operatorname{diag}\bigl(\min\{σ\_i,τ\}\bigr) V^\top, \qquad τ> 0$. Thus, $\operatorname{MClip}\_τ$ denotes the mathematical clipping operator, while MuCon denotes the optimizer primitive that substitutes this clipped direction for Muon's polar direction. The Muon/MuCon scaling parameterization used in this work is called $\text{SpectralP}$: it is the hidden-matrix scaling recipe under which polar Muon or clipped MuCon directions are applied. The map $\operatorname{MClip}\_τ$ is the Frobenius projection onto the spectral-norm ball $\{X : \|X\|_2 \le τ\}$: it leaves singular values at or below $τ$ unchanged and modifies only the violating singular directions. This paper asks when the MuCon clipping step can be approximated without a full dense SVD. We record two exact identities, a polar/absolute-value formula and a scalar-root formulation leading to a rational Newton filter for the clipped positive-semidefinite factor, and identify the numerical obstruction common to both: singular values near the threshold make sign decisions and rational solves ill-conditioned. Matrix-function methods are therefore useful only when paired with stable polar/square-root primitives or explicit regularization near the clipping boundary.
- Abstract(参考訳): ミューオン式オプティマイザは行列値の運動量または事前条件の更新$B = U \operatorname{diag}(σ_1,\ldots,σ_r) V^\top$ を、標準偏極係数 $\operatorname{Pol}(B) = U V^\top$ に置き換える。
これはすべての 0 でない特異値を 1 にマッピングする。
ミューコンは、同じミューオン行列に対して特異値クリッピングを適用する:$D^{\mathrm{MuCon}}\_τ(B) = \operatorname{MClip}\_τ(B) = U \operatorname{diag}\bigl(\min\{σ\_i,τ\}\bigr) V^\top, \qquad τ> 0$。
したがって、$\operatorname{MClip}\_τ$ は数学的クリッピング演算子を表し、 MuCon は、このクリッピングされた方向を Muon の極方向に置き換えるオプティマイザプリミティブを表す。
この研究で使用される Muon/MuCon スケーリングパラメータ化は $\text{SpectralP}$: 極性の Muon や切断された MuCon の方向が適用される隠れ行列スケーリングレシピである。
写像 $\operatorname{MClip}\_τ$ はスペクトル-ノルム球 $\{X : \|X\|_2 \le τ\}$ へのフロベニウス射影である: 特異値は$τ$ 以下に残され、違反する特異方向のみを変更する。
本稿では,全密度SVDを使わずに MuCon クリッピングステップを近似できるかどうかを問う。
正の正定値係数に対する合理的ニュートンフィルタに導かれる極/絶対値式とスカラー・ルート式という2つの厳密な同一性を記録し、閾値付近の特異値が符号決定を行い、不当な条件を合理的に解く。
したがって、行列関数法は、安定極/平方根プリミティブとペアリングしたり、クリッピング境界付近で明示的な正規化を行う場合にのみ有用である。
関連論文リスト
- The Newton-Muon Optimizer [2.1583596008762935]
我々は,Muonの設計イテレーションに新たな光を放つ代理モデルを導入する。
Newton-Muonと呼ばれる新しい最適化手法は、標準のMuonを暗黙のNewton-typeメソッドとして解釈できることを示している。
論文 参考訳(メタデータ) (2026-04-01T23:29:08Z) - Optimal Scalar Quantization for Matrix Multiplication: Closed-Form Density and Phase Transition [50.36362492608702]
乗算前の2つの行列のエントリーワイズスカラー量子化について検討した。
我々は、閉形式の最適点密度 [ star(u) propto exp!left(-fracu26right)bigl( (1-2)+2u22bigr), qquad u=fracx_X を求め、相関駆動相転移を証明した。
論文 参考訳(メタデータ) (2026-03-20T01:53:44Z) - Asymmetric Linear-Combination-of-Unitaries Realization of Quantum Convolution via Modular Adders [1.8228930355273179]
$mathbbZ/NmathbbZ$ 上の円状の畳み込みは、LCU(Line-combination-of-unitaries)フレームワーク内で量子ハードウェア上で実装することができる。
逆行列 $J_n=Xotimes n$ を導入し、反射シフト $widetildeL_i,n=L_i,nJ_n$ を定義する。
結果として生じる対称性演算子は、1つの既知の入力側$J_n$層によってのみ円形の畳み込みとは異なる。
論文 参考訳(メタデータ) (2026-03-16T12:52:05Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - A Flow Equation Approach Striving Towards an Energy-Separating
Hamiltonian Unitary Equivalent to the Dirac Hamiltonian with Coupling to
Electromagnetic Fields [0.0]
相対論的荷電フェルミオンに対するディラック・ハミルトンの$Hleft(Dright)$は、目的付きフロー方程式法で変換される。
Hleft(SPright)$ に対する相対論的補正はすべて、マグナス級数展開の導出において明示的に考慮される。
論文 参考訳(メタデータ) (2022-07-26T11:38:55Z) - Constant matters: Fine-grained Complexity of Differentially Private
Continual Observation [10.624505781812385]
連続的な観測をカウントするための差分プライベートアルゴリズムに対するきめ細かい誤差境界について検討する。
我々は連続観察下で様々な問題に対して具体的な誤差境界を初めて与えている。
論文 参考訳(メタデータ) (2022-02-23T11:50:20Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。