論文の概要: MARS-M: When Variance Reduction Meets Matrices
- arxiv url: http://arxiv.org/abs/2510.21800v2
- Date: Tue, 28 Oct 2025 09:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.880331
- Title: MARS-M: When Variance Reduction Meets Matrices
- Title(参考訳): MARS-M: ばらつき低減と行列
- Authors: Yifeng Liu, Angela Yuan, Quanquan Gu,
- Abstract要約: マトリックスベースのプレコンディショニングは、大規模なニューラルネットワークのためのスカラーベースのプレコンディショニングよりも効率的であることが示されている。
我々は,MARSにおける分散低減手法をMuonと統合する新しい手法であるMARS-Mを紹介する。
言語モデリングとコンピュータビジョンタスクにおける実験結果から、MARS-Mは、様々な下流ベンチマークにおいて、一貫して損失を減らし、性能を向上することを示した。
- 参考スコア(独自算出の注目度): 47.405031764674014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matrix-based preconditioned optimizers, such as Muon, have recently been shown to be more efficient than scalar-based optimizers for training large-scale neural networks, including large language models (LLMs). On the other hand, recent benchmarks on optimizers for LLM pre-training have demonstrated that variance-reduction techniques such as MARS can achieve substantial speedups over standard optimizers that do not employ variance reduction. In this paper, to achieve the best of both worlds, we introduce MARS-M, a new optimizer that integrates the variance reduction technique in MARS with Muon. Under standard regularity conditions, we prove that Muon-M converges to a first-order stationary point at a rate of $\tilde{\mathcal{O}}(T^{-1/3})$, which improves upon $\tilde{\mathcal{O}}(T^{-1/4})$ rate attained by Muon. Our empirical results on language modeling and computer vision tasks demonstrate that MARS-M consistently yields lower losses and improved performance across various downstream benchmarks. The implementation of MARS-M is available at https://github.com/AGI-Arena/MARS/tree/main/MARS_M.
- Abstract(参考訳): Muonのようなマトリックスベースの事前条件付きオプティマイザは、大規模ニューラルネットワークをトレーニングするためのスカラーベースのオプティマイザよりも効率的であることが最近示されている。
一方、近年のLCM事前学習のための最適化器のベンチマークでは、MARSのような分散還元技術は分散低減を使わずに標準最適化器よりも大幅に高速化できることが示されている。
本稿では,MARSの分散低減手法をMuonと統合した新しい最適化手法であるMARS-Mを導入する。
標準正規性条件の下では、Muon-M が $\tilde{\mathcal{O}}(T^{-1/3})$ の速度で一階定常点に収束し、Muon が到達した $\tilde{\mathcal{O}}(T^{-1/4})$ で改善されることが証明される。
言語モデリングとコンピュータビジョンタスクにおける実験結果から,MARS-Mは低損失を連続的に獲得し,様々なダウンストリームベンチマークで性能を向上することを示した。
MARS-Mの実装はhttps://github.com/AGI-Arena/MARS/tree/main/MARS_Mで公開されている。
関連論文リスト
- MARS: Harmonizing Multimodal Convergence via Adaptive Rank Search [12.345218777941108]
Low-Rank Adaptation (LoRA) のようなパラメータ効率の高い手法を用いた細調整型マルチモーダル言語モデル (MLLM) はタスク適応に不可欠である。
そこで我々はMARS(Multimodal Adaptive Rank Search)を導入し,性能を最大化しながらトレーニングのバランスをとる最適なランクペアを探索する手法を提案する。
1つの法則は、モジュール固有の収束時間で探索空間を定式化し、もう1つの法則は最終タスク性能を予測し、与えられた集合から最適なペアを選択する。
論文 参考訳(メタデータ) (2026-02-28T15:58:28Z) - Variance-Adaptive Muon: Accelerating LLM Pretraining with NSR-Modulated and Variance-Scaled Momentum [19.385264518362472]
大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスク間の競合性能を達成する。
モーメントに分散適応正規化を適用するMuon-NSRとMuon-VSの2つの変種を提案する。
GPT-2 と LLaMA プレトレーニング実験により,提案手法は収束を加速し,AdamW と Muon の両ベースラインの競合よりも連続的に検証損失を減少させることを示した。
論文 参考訳(メタデータ) (2026-01-21T02:41:56Z) - Muon is Provably Faster with Momentum Variance Reduction [55.388203260208485]
近年の実証研究により、線形線形オラクル(LMO)に基づく深層学習が特に選択された非ユーデアンよりも優れていることが示された。
アダム型学習法は,大規模言語モデルの最小化よりも優れている。
論文 参考訳(メタデータ) (2025-12-18T14:38:39Z) - REG: A Regularization Optimizer for Robust Training Dynamics [24.850151895583494]
RACS(Row-and-Column-Scaling)オペレータは、更新ステップをより劇的な方法で正規化することにより、既存のトレーニングダイナミクスの実装が簡単になり、互換性が向上する。
我々は,我々のREGがAdamWよりも優れた性能と安定性を達成できることを実証すると同時に,AdamWトレーニングパラダイムとの整合性も維持する。
論文 参考訳(メタデータ) (2025-10-04T06:05:57Z) - Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order [39.25335214877435]
ダウンストリームタスクに事前訓練されたモデルを適用するには、微調整大型言語モデル(LLM)が不可欠である。
従来の一階述語アルゴリズムは、モデルサイズであまりスケールしない、禁止的なメモリと計算コストを発生させる。
メモリと計算効率の代替としてゼロオーダー(ZO)最適化法を提案する。
論文 参考訳(メタデータ) (2025-06-04T20:27:17Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。
本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。