論文の概要: MARS-M: When Variance Reduction Meets Matrices
- arxiv url: http://arxiv.org/abs/2510.21800v1
- Date: Mon, 20 Oct 2025 16:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.525356
- Title: MARS-M: When Variance Reduction Meets Matrices
- Title(参考訳): MARS-M: ばらつき低減と行列
- Authors: Yifeng Liu, Angela Yuan, Quanquan Gu,
- Abstract要約: マトリックスベースのプレコンディショニングは、大規模なニューラルネットワークのためのスカラーベースのプレコンディショニングよりも効率的であることが示されている。
我々は,MARSにおける分散低減手法をMuonと統合する新しい手法であるMARS-Mを紹介する。
言語モデリングとコンピュータビジョンタスクによる結果から,MARS-M はダウンストリームベンチマークにおいて連続的に損失を低減し,性能を向上することが示された。
- 参考スコア(独自算出の注目度): 47.405031764674014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Matrix-based preconditioned optimizers, such as Muon, have recently been shown to be more efficient than scalar-based optimizers for training large-scale neural networks, including large language models (LLMs). On the other hand, recent benchmarks on optimizers for LLM pre-training have demonstrated that variance-reduction techniques such as MARS can achieve substantial speedups over standard optimizers that do not employ variance reduction. In this paper, to achieve the best of both worlds, we introduce MARS-M, a new optimizer that integrates the variance reduction technique in MARS with Muon. Under standard regularity conditions, we prove that Muon-M converges to a first-order stationary point at a rate of $\tilde{\mathcal{O}}(T^{-1/3})$, which improves upon $\tilde{\mathcal{O}}(T^{-1/4})$ rate attained by Muon. Our empirical results on language modeling and computer vision tasks demonstrate that MARS-M consistently yields lower losses and improved performance across various downstream benchmarks. The implementation of MARS-M is available at https://github.com/AGI-Arena/MARS/MARS_M.
- Abstract(参考訳): Muonのようなマトリックスベースの事前条件付きオプティマイザは、大規模ニューラルネットワークをトレーニングするためのスカラーベースのオプティマイザよりも効率的であることが最近示されている。
一方、近年のLCM事前学習のための最適化器のベンチマークでは、MARSのような分散還元技術は分散低減を使わずに標準最適化器よりも大幅に高速化できることが示されている。
本稿では,MARSの分散低減手法をMuonと統合した新しい最適化手法であるMARS-Mを導入する。
標準正規性条件の下では、Muon-M が $\tilde{\mathcal{O}}(T^{-1/3})$ の速度で一階定常点に収束し、Muon が到達した $\tilde{\mathcal{O}}(T^{-1/4})$ で改善されることが証明される。
言語モデリングとコンピュータビジョンタスクにおける実験結果から,MARS-Mは低損失を連続的に獲得し,様々なダウンストリームベンチマークで性能を向上することを示した。
MARS-Mの実装はhttps://github.com/AGI-Arena/MARS/MARS_Mで公開されている。
関連論文リスト
- Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order [39.25335214877435]
ダウンストリームタスクに事前訓練されたモデルを適用するには、微調整大型言語モデル(LLM)が不可欠である。
従来の一階述語アルゴリズムは、モデルサイズであまりスケールしない、禁止的なメモリと計算コストを発生させる。
メモリと計算効率の代替としてゼロオーダー(ZO)最適化法を提案する。
論文 参考訳(メタデータ) (2025-06-04T20:27:17Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。