論文の概要: The Newton-Muon Optimizer
- arxiv url: http://arxiv.org/abs/2604.01472v1
- Date: Wed, 01 Apr 2026 23:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.104946
- Title: The Newton-Muon Optimizer
- Title(参考訳): Newton-Muonオプティマイザ
- Authors: Zhehang Du, Weijie Su,
- Abstract要約: 我々は,Muonの設計イテレーションに新たな光を放つ代理モデルを導入する。
Newton-Muonと呼ばれる新しい最適化手法は、標準のMuonを暗黙のNewton-typeメソッドとして解釈できることを示している。
- 参考スコア(独自算出の注目度): 2.1583596008762935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Muon optimizer has received considerable attention for its strong performance in training large language models, yet the design principle behind its matrix-gradient orthogonalization remains largely elusive. In this paper, we introduce a surrogate model that not only sheds new light on the design of Muon, but more importantly leads to a new optimizer. In the same spirit as the derivation of Newton's method, the surrogate approximates the loss as a quadratic function of the perturbation to a weight matrix $W$ using only three matrices: the gradient $G$, an output-space curvature matrix $H$, and the data matrix $Z$ that stacks the layer inputs. By minimizing this surrogate in one step and adopting a certain isotropic assumption on the weights, we obtain the closed-form update rule (up to momentum and weight decay) $W \leftarrow W - η\cdot \mathrm{msgn}(G(ZZ^\top)^{-1})$, where $η$ is the learning rate and $\mathrm{msgn}(X)=UV^\top$ if $X=USV^\top$ is a compact singular value decomposition. This new optimization method, which we refer to as Newton-Muon, shows that standard Muon can be interpreted as an implicit Newton-type method that neglects the right preconditioning induced by the input second moment. Empirically, on a reproduction of the earliest publicly released Modded-NanoGPT speedrun configuration using Muon for GPT-2 pretraining, Newton-Muon reaches the target validation loss in 6\% fewer iteration steps and reduces wall-clock training time by about 4\%.
- Abstract(参考訳): Muonオプティマイザは、大規模な言語モデルのトレーニングにおいて高いパフォーマンスを保っているが、行列勾配の直交化の背後にある設計原理はほとんど解明されていない。
本稿では,Muonの設計に新たな光を放つだけでなく,新たなオプティマイザを生み出すサロゲートモデルを提案する。
ニュートンの法則の導出と同じ精神で、サロゲートは3つの行列(勾配$G$、出力空間曲率行列$H$、層入力を積み重ねるデータ行列$Z$)を使い、摂動の二次関数をウェイト行列$W$に近似する。
1ステップでこのサロゲートを最小化し、重みに対する一定の等方的仮定を採用することにより、閉形式更新規則(運動量と重みの減衰まで)を得る($W \leftarrow W - η\cdot \mathrm{msgn}(G(ZZ^\top)^{-1})$, where $η$ is the learning rate and $\mathrm{msgn}(X)=UV^\top$ if $X=USV^\top$はコンパクト特異値分解である)。
この新たな最適化手法はニュートン・ミューオンと呼ばれ、標準ミューオンを入力第2モーメントによって誘導される正しい前提条件を無視した暗黙のニュートン型手法として解釈できることを示す。
実験的に、GPT-2事前トレーニングにMuonを用いた最初期の公開のModded-NanoGPTスピードラン構成の再現において、Newton-Muonは6倍のイテレーションステップで目標バリデーション損失を達成し、ウォールクロックのトレーニング時間を約4倍に短縮する。
関連論文リスト
- Wiener Chaos Expansion based Neural Operator for Singular Stochastic Partial Differential Equations [58.188204772101756]
本稿では,最近開発された Wiener Chaos Expansion (WCE) ベースのニューラル演算子 (NO) を特異偏微分方程式に適用する方法について検討する。
特徴量線形変調(FiLM)を利用して特異SPDEの解とその滑らかな残差の依存性を適切に把握する。
得られたWCE-FiLM-NOは、相対的な$L$損失、アウト・オブ・ディストリビューション、自己相関スコアによって測定された、$boldsymbol4$に対して優れた性能を示す。
論文 参考訳(メタデータ) (2026-03-09T10:50:30Z) - Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文 参考訳(メタデータ) (2025-11-20T18:56:05Z) - Low-rank Orthogonalization for Large-scale Matrix Optimization with Applications to Foundation Model Training [3.1922198632169327]
近年、Muon citejordanmuonは、基礎モデルトレーニングにおける強力なパフォーマンスに対して大きな注目を集めている。
我々は,低ランク行列符号の勾配降下と低ランクのムオン変種を提案する。
論文 参考訳(メタデータ) (2025-09-15T14:28:53Z) - Muon Optimizes Under Spectral Norm Constraints [12.29696026957078]
重み行列のスペクトルノルムに制約を課す最適化問題を暗黙的に解くことを示す。
この観点は、暗黙的に正規化され制約付き最適化アルゴリズムのより広範なクラスを探索することを可能にする。
論文 参考訳(メタデータ) (2025-06-18T01:32:39Z) - Conv-Basis: A New Paradigm for Efficient Attention Inference and Gradient Computation in Transformers [16.046186753149]
最近のLarge Language Models(LLM)におけるトランスフォーマーの成功の鍵は自己認識メカニズムである
我々は、注目行列の畳み込み様構造を利用して、畳み込み行列を用いた注目の効率的な近似法を開発する。
トランスフォーマーモデルにおけるアテンション計算を加速するための新しいパラダイムが、より長いコンテキストへのアプリケーションを支援することを願っています。
論文 参考訳(メタデータ) (2024-05-08T17:11:38Z) - A Unified Scheme of ResNet and Softmax [8.556540804058203]
回帰問題を理論的に解析する: $| langle exp(Ax) + A x, bf 1_n rangle-1 ( exp(Ax) + Ax )
この回帰問題は、ソフトマックス回帰とResNetを組み合わせた統一的なスキームである。
論文 参考訳(メタデータ) (2023-09-23T21:41:01Z) - Estimating the minimizer and the minimum value of a regression function
under passive design [72.85024381807466]
最小値 $boldsymbolx*$ と最小値 $f*$ を滑らかで凸な回帰関数 $f$ で推定する新しい手法を提案する。
2次リスクと$boldsymbolz_n$の最適化誤差、および$f*$を推定するリスクについて、漸近的でない上界を導出する。
論文 参考訳(メタデータ) (2022-11-29T18:38:40Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Newton-LESS: Sparsification without Trade-offs for the Sketched Newton
Update [88.73437209862891]
2階最適化において、潜在的なボトルネックは繰り返しごとに最適化関数のヘシアン行列を計算することである。
本稿では,ガウススケッチ行列を劇的に分散させることにより,スケッチの計算コストを大幅に削減できることを示す。
ニュートン=ルネッサはガウス埋め込みとほぼ同じ問題に依存しない局所収束率を享受していることを証明した。
論文 参考訳(メタデータ) (2021-07-15T17:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。