論文の概要: Low-rank Orthogonalization for Large-scale Matrix Optimization with Applications to Foundation Model Training
- arxiv url: http://arxiv.org/abs/2509.11983v1
- Date: Mon, 15 Sep 2025 14:28:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.343368
- Title: Low-rank Orthogonalization for Large-scale Matrix Optimization with Applications to Foundation Model Training
- Title(参考訳): 大規模行列最適化のための低ランク直交化と基礎モデルトレーニングへの応用
- Authors: Chuan He, Zhanwang Deng, Zhaosong Lu,
- Abstract要約: 近年、Muon citejordanmuonは、基礎モデルトレーニングにおける強力なパフォーマンスに対して大きな注目を集めている。
我々は,低ランク行列符号の勾配降下と低ランクのムオン変種を提案する。
- 参考スコア(独自算出の注目度): 3.1922198632169327
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Neural network (NN) training is inherently a large-scale matrix optimization problem, yet the matrix structure of NN parameters has long been overlooked. Recently, the optimizer Muon \cite{jordanmuon}, which explicitly exploits this structure, has gained significant attention for its strong performance in foundation model training. A key component contributing to Muon's success is matrix orthogonalization. In this paper, we propose {\it low-rank orthogonalization}, which explicitly leverages the low-rank nature of gradients during NN training. Building on this, we propose low-rank matrix-signed gradient descent and a low-rank variant of Muon. Our numerical experiments demonstrate the superior performance of low-rank orthogonalization, with the low-rank Muon achieving promising results in GPT-2 and LLaMA pretraining -- surpassing the performance of the carefully tuned vanilla Muon. Theoretically, we establish the iteration complexity of the low-rank matrix-signed gradient descent for finding an approximate stationary solution, as well as that of low-rank Muon for finding an approximate stochastic stationary solution under heavy-tailed noise.
- Abstract(参考訳): ニューラルネットワーク(NN)トレーニングは本質的に大規模な行列最適化問題であるが、NNパラメータの行列構造は長い間見過ごされてきた。
近年,この構造を明示的に活用する最適化器 Muon \cite{jordanmuon} が,基礎モデルトレーニングにおける強力な性能に注目されている。
Muon の成功に寄与する重要な要素は行列直交である。
本稿では,NNトレーニング中の勾配の低ランク特性を明示的に活用した低ランク直交化を提案する。
これに基づいて、低ランク行列符号勾配勾配と低ランクムオン変種を提案する。
GPT-2 と LLaMA プレトレーニングにおいて低ランクの Muon が有望な結果を達成し, 精巧な調整バニラ Muon の性能を上回りながら, 低ランクの直交化の優れた性能を示す数値実験を行った。
理論的には、近似定常解を求めるための低ランク行列符号勾配勾配の反復複雑性と、重テール雑音下で近似確率定常解を求めるための低ランクミューンの反復複雑性を確立する。
関連論文リスト
- A Riemannian Optimization Perspective of the Gauss-Newton Method for Feedforward Neural Networks [3.48097307252416]
我々は,スムーズな活性化関数を持つニューラルネットワークを学習するためのガウスニュートン力学の収束性を分析する。
適切な減衰スケジュールが選択されたレバンス・マルカルト力学は、潜在的に条件の悪いニューラル・タンジェント・カーネル行列にも拘わらず、高速収束率が得られることを示す。
論文 参考訳(メタデータ) (2024-12-18T16:51:47Z) - Stochastic Zeroth-Order Optimization under Strongly Convexity and Lipschitz Hessian: Minimax Sample Complexity [59.75300530380427]
本稿では,アルゴリズムが検索対象関数の雑音評価にのみアクセス可能な2次スムーズかつ強い凸関数を最適化する問題を考察する。
本研究は, ミニマックス単純後悔率について, 一致した上界と下界を発達させることにより, 初めて厳密な評価を行ったものである。
論文 参考訳(メタデータ) (2024-06-28T02:56:22Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - On Learning Gaussian Multi-index Models with Gradient Flow [57.170617397894404]
高次元ガウスデータに対する多次元回帰問題の勾配流について検討する。
低階射影をパラメトリする部分空間よりも、非パラメトリックモデルで低次元リンク関数を無限に高速に学習する2時間スケールのアルゴリズムを考える。
論文 参考訳(メタデータ) (2023-10-30T17:55:28Z) - Semi-Supervised Laplace Learning on Stiefel Manifolds [48.3427853588646]
グラフベースで教師付きサンプルを低ラベルレートで作成するためのフレームワークSequential Subspaceを開発した。
我々の手法は極めて低いレートで、高いラベルレートで達成できる。
論文 参考訳(メタデータ) (2023-07-31T20:19:36Z) - Multi-View Spectral Clustering Tailored Tensor Low-Rank Representation [105.33409035876691]
本稿では,テンソル低ランクモデルに基づくマルチビュースペクトルクラスタリング(MVSC)の問題について検討する。
MVSCに適合する新しい構造テンソル低ランクノルムを設計する。
提案手法は最先端の手法よりもかなり優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T11:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。