論文の概要: RMNP: Row-Momentum Normalized Preconditioning for Scalable Matrix-Based Optimization
- arxiv url: http://arxiv.org/abs/2603.20527v1
- Date: Fri, 20 Mar 2026 21:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:38.952849
- Title: RMNP: Row-Momentum Normalized Preconditioning for Scalable Matrix-Based Optimization
- Title(参考訳): RMNP:スケーラブルマトリックスベース最適化のためのRow-Momentum正規化プレコンディショニング
- Authors: Shenyang Deng, Zhuoli Ouyang, Tianyu Pang, Zihang Liu, Ruochen Jin, Shuhua Yu, Yaoqing Yang,
- Abstract要約: textscMuon (Row Momentum Normalized Preconditioning) は、Newton-Schulz を単純な行単位の $ell$ normalization に置き換える操作である。
この置換は、$mtimes n$ weight matrixに対して$mathcalO(mncmin(mn))$から$mathcalO(mn)へ複雑さを減らし、同等の最適化性能を維持する。
- 参考スコア(独自算出の注目度): 28.107175154772264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preconditioned adaptive methods have gained significant attention for training deep neural networks, as they capture rich curvature information of the loss landscape . The central challenge in this field lies in balancing preconditioning effectiveness with computational efficiency of implementing the preconditioner. Among recent advances, \textsc{Muon} stands out by using Newton-Schulz iteration to obtain preconditioned updates without explicitly constructing the preconditioning matrix. Despite its advantages, the efficiency of \textsc{Muon} still leaves room for further improvement. In this paper, we introduce \textsc{RMNP} (Row Momentum Normalized Preconditioning), an optimizer that replaces Newton-Schulz iteration with a simple row-wise $\ell_2$ normalization operation, motivated by the empirically observed diagonal block structure of the Transformer layerwise Hessian. This substitution reduces the per-iteration computational complexity from $\mathcal{O}(mn\cdot\min(m,n))$ to $\mathcal{O}(mn)$ for an $m\times n$ weight matrix while maintaining comparable optimization performance. Theoretically, we establish convergence guarantees for \textsc{RMNP} in the non-convex setting that match recent results for \textsc{Muon} optimizers, achieving the information-theoretic minimax optimal complexity. Extensive experiments on large language model pretraining show that \textsc{RMNP} delivers competitive optimization performance compared with \textsc{Muon} while substantially reducing preconditioning wall-clock time. Our code is available at \href{https://anonymous.4open.science/r/RMNP-E8E1/}{this link}.
- Abstract(参考訳): 事前条件付き適応手法は、ロスランドスケープの豊富な曲率情報を取得することにより、ディープニューラルネットワークのトレーニングにおいて大きな注目を集めている。
この分野での中心的な課題は、プリコンディショナーを実装する際の計算効率とプレコンディショニングの有効性のバランスにある。
最近の進歩の中で、 \textsc{Muon} は、プレコンディショニング行列を明示的に構成することなく、Newton-Schulz 反復を用いてプレコンディショニングされた更新を得る。
その利点にもかかわらず、 \textsc{Muon} の効率性は依然としてさらなる改善の余地を残している。
本稿では、Newton-Schulz 反復を単純な行単位で $\ell_2$ 正規化演算に置き換える最適化器である \textsc{RMNP} (Row Momentum Normalized Preconditioning) を紹介する。
この置換により、計算量当たりの複雑性は$\mathcal{O}(mn\cdot\min(m,n))$から$\mathcal{O}(mn)$へ減少し、同じ最適化性能を維持しながら$m\times n$ weight matrixとなる。
理論的には、情報理論のミニマックス最適複雑性を達成し、近年の \textsc{Muon}オプティマイザの結果と一致する非凸設定において、 \textsc{RMNP} の収束保証を確立する。
大規模言語モデルの事前学習実験により, 壁面時間を大幅に短縮しつつ, 性能の最適化を実現していることが明らかとなった。
我々のコードは \href{https://anonymous.4open.science/r/RMNP-E8E1/}{this link} で利用可能です。
関連論文リスト
- Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文 参考訳(メタデータ) (2025-11-20T18:56:05Z) - Dynamic Regret Reduces to Kernelized Static Regret [63.36965242404415]
本研究では,オンライン凸最適化において,任意のベンチマークシーケンスに対して低累積損失を達成することを目的とした動的後悔について検討する。
再生ケルネルヒルベルト空間 (RKHS) の形で適切な関数空間を構築することにより、最適$R_T(u_1,ldots,u_T) = MathcalO(sqrtsum_t|u_t-u_t-1|T)$ dynamic regret guarantee。
論文 参考訳(メタデータ) (2025-07-07T21:09:33Z) - Two-Timescale Gradient Descent Ascent Algorithms for Nonconvex Minimax Optimization [77.3396841985172]
我々は、構造化された非極小最適化問題の解法として、2時間勾配上昇(TTGDA)を統一的に解析する。
我々の貢献はTTGDAアルゴリズムを設計することであり、設定を超えて効果的です。
論文 参考訳(メタデータ) (2024-08-21T20:14:54Z) - Inverting the Leverage Score Gradient: An Efficient Approximate Newton Method [10.742859956268655]
本稿では,レバレッジスコア勾配から固有モデルパラメータを復元することを目的とする。
具体的には、レバレッジスコア勾配の逆転を$g(x)$として精査する。
論文 参考訳(メタデータ) (2024-08-21T01:39:42Z) - Accelerated Stochastic Min-Max Optimization Based on Bias-corrected Momentum [30.01198677588252]
1次アルゴリズムは、$varepsilon-stationary pointを見つけるのに少なくとも$mathcalO(varepsilonepsilon-4)$ complexityを必要とする。
本稿では,高効率な変動複雑性を生かした新しい運動量アルゴリズムを提案する。
本手法の有効性は実世界のデータセットを用いてロジスティック回帰を用いて検証する。
論文 参考訳(メタデータ) (2024-06-18T20:14:52Z) - From CNNs to Shift-Invariant Twin Models Based on Complex Wavelets [7.812210699650151]
我々は第1層の組み合わせを "real-valued convolutions + max pooling" に置き換える。
我々は、CModとRMaxが、畳み込みカーネルが帯域通過で向き付けられたときに、同等の出力を生成すると主張している。
提案手法は,ImageNetとCIFAR-10の分類タスクにおいて,優れた精度を実現する。
論文 参考訳(メタデータ) (2022-12-01T09:42:55Z) - Low-rank Tensor Learning with Nonconvex Overlapped Nuclear Norm
Regularization [44.54772242784423]
低ランク学習行列に対する効率的な非正規化アルゴリズムを開発した。
提案アルゴリズムは、高価な折り畳み/折り畳み問題を回避することができる。
実験の結果,提案アルゴリズムは既存の状態よりも効率的で空間が広いことがわかった。
論文 参考訳(メタデータ) (2022-05-06T07:47:10Z) - Newton-LESS: Sparsification without Trade-offs for the Sketched Newton
Update [88.73437209862891]
2階最適化において、潜在的なボトルネックは繰り返しごとに最適化関数のヘシアン行列を計算することである。
本稿では,ガウススケッチ行列を劇的に分散させることにより,スケッチの計算コストを大幅に削減できることを示す。
ニュートン=ルネッサはガウス埋め込みとほぼ同じ問題に依存しない局所収束率を享受していることを証明した。
論文 参考訳(メタデータ) (2021-07-15T17:33:05Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - A Scalable, Adaptive and Sound Nonconvex Regularizer for Low-rank Matrix
Completion [60.52730146391456]
そこで我々は,適応的かつ音質の高い"核フロベニウスノルム"と呼ばれる新しい非スケーラブルな低ランク正規化器を提案する。
特異値の計算をバイパスし、アルゴリズムによる高速な最適化を可能にする。
既存の行列学習手法では最速でありながら、最先端の回復性能が得られる。
論文 参考訳(メタデータ) (2020-08-14T18:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。