論文の概要: AdaMuon: Adaptive Muon Optimizer
- arxiv url: http://arxiv.org/abs/2507.11005v1
- Date: Tue, 15 Jul 2025 05:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.997568
- Title: AdaMuon: Adaptive Muon Optimizer
- Title(参考訳): AdaMuon: 適応的なミューオン最適化
- Authors: Chongjie Si, Debing Zhang, Wei Shen,
- Abstract要約: 我々は,最近検証されたMuon上に構築された適応学習率フレームワークであるAdaMuonを提案する。
提案手法は追加のチューニング負担を伴わず,既存のMuonトレーニングパイプラインにシームレスに統合することができる。
- 参考スコア(独自算出の注目度): 11.281916426508216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose AdaMuon, an adaptive learning-rate framework built upon the recently validated Muon optimizer, which has demonstrated substantial efficiency gains over AdamW in large-scale model training. AdaMuon augments Muon with two mutually dependent modules: (1) a per-parameter second-moment modulation that captures orthogonal gradient updates to ensure update-level adaptivity, and (2) a RMS-aligned rescaling that regulates the overall update magnitude by aligning it with the intrinsic structure of the parameter space. Empirical results on multiple model scales and learning-rate regimes confirm that AdaMuon consistently outperforms the original Muon, delivering higher acceleration in convergence while maintaining training stability. Our method introduces no additional tuning burden and can be seamlessly integrated into existing Muon training pipelines.
- Abstract(参考訳): 我々は,最近検証されたMuonオプティマイザ上に構築された適応学習率フレームワークであるAdaMuonを提案する。
AdaMuonはMuonを2つの相互依存モジュールで拡張する: 1) パラメータ空間の固有構造と整列することで、更新レベルの適応性を確保するために直交勾配の更新をキャプチャするパラメータ単位の2次モード変調、2) 全体の更新サイズを調節するRMS整列再スケーリング。
複数のモデルスケールと学習速度の体系に関する実証的な結果は、AdaMuonがトレーニング安定性を維持しながら収束の加速を保ちながら、元のMuonを一貫して上回っていることを証明している。
提案手法は追加のチューニング負担を伴わず,既存のMuonトレーニングパイプラインにシームレスに統合することができる。
関連論文リスト
- Beyond Freezing: Sparse Tuning Enhances Plasticity in Continual Learning with Pre-Trained Models [10.904981532789824]
事前訓練されたモデルによる継続的な学習は、シーケンシャルなタスクにまたがる効率的な適応を大いに約束する。
既存のアプローチはPTMを凍結し、プロンプトやアダプタのような補助モジュールに依存している。
MIST(Mutual Information-Guided Sparse Tuning)は,PTMパラメータのサブセットを選択的に更新するプラグイン・アンド・プレイ方式である。
論文 参考訳(メタデータ) (2025-05-26T13:09:25Z) - M2Rec: Multi-scale Mamba for Efficient Sequential Recommendation [35.508076394809784]
Modelは、Fourier分析、大規模言語モデル、適応ゲーティングとマルチスケールのMambaを統合した、新しいシーケンシャルなレコメンデーションフレームワークである。
実験では、モデルは最先端のパフォーマンスを実現し、既存のMambaベースのモデルよりもHit Rate@10を3.2%改善した。
論文 参考訳(メタデータ) (2025-05-07T14:14:29Z) - Practical Efficiency of Muon for Pretraining [13.914926836677648]
大規模なバッチサイズでデータ効率を維持する上で、MuonはAdamWよりも効果的であることがわかった。
本稿では,資源のオーバーヘッドを最小限に抑えつつ,mulPのすべてのエラー源を考慮に入れた単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-04T19:14:43Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Towards Compatible Fine-tuning for Vision-Language Model Updates [114.25776195225494]
クラス条件付きコンテキスト最適化(ContCoOp)は、学習可能なプロンプトと、テキストエンコーダに入力する前に注意層を使用してクラス埋め込みを統合する。
15のデータセットで実験した結果,ContCoOpはベースライン法よりも高い互換性を示し,分布外一般化の堅牢性を示すことがわかった。
論文 参考訳(メタデータ) (2024-12-30T12:06:27Z) - Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization [72.81319836138347]
オンライン連続学習(OCL)は、以前に学習したタスクの知識を保持しながら、一度だけ現れるデータストリームから新しいタスクを学習することを目指している。
既存の方法の多くはリプレイに依存しており、正規化や蒸留によるメモリ保持の強化に重点を置いている。
既存のほとんどのメソッドに組み込むことができ、適応性を直接改善できるプラグイン・アンド・プレイモジュールであるS6MODを導入する。
論文 参考訳(メタデータ) (2024-12-24T05:25:21Z) - Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [115.79349923044663]
FSCIL(Few-shot class-incremental Learning)は、限られた例から新しいクラスを段階的に学習することを目的としている。
静的アーキテクチャは固定パラメータ空間に依存して、逐次到着するデータから学習し、現在のセッションに過度に適合する傾向がある。
本研究では,FSCILにおける選択状態空間モデル(SSM)の可能性について検討する。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - Multi-Convformer: Extending Conformer with Multiple Convolution Kernels [64.4442240213399]
我々は,マルチコンバータを導入し,複数のコンバータカーネルをゲーティングと合わせてコンバータの畳み込みモジュール内で利用する。
我々のモデルは、よりパラメータ効率の良いCgMLPやE-Branchformerといった既存のConformerと性能的に競合する。
我々は4つの異なるデータセットと3つの異なるモデリングパラダイムにまたがって、我々のアプローチをConformerとその変種と経験的に比較し、最大8%の相対的な単語誤り率(WER)の改善を示す。
論文 参考訳(メタデータ) (2024-07-04T08:08:12Z) - Multitask Pre-training of Modular Prompt for Chinese Few-Shot Learning [83.10861551885321]
本稿では,マルチタスク事前学習型モジュール・プロンプト(MP2)を提案する。
MP2は38の中国語タスクで事前訓練された組み合わせ可能なプロンプトのセットである。
我々は,MP2がプロンプトチューニング,フルモデルチューニング,事前プロンプト事前学習の手法を,数ショット設定で大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-14T06:43:42Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。