論文の概要: MuonAll: Muon Variant for Efficient Finetuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.06086v1
- Date: Sat, 08 Nov 2025 17:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.747865
- Title: MuonAll: Muon Variant for Efficient Finetuning of Large Language Models
- Title(参考訳): MuonAll: 大規模言語モデルの効率的な微調整のためのミューオンバリアント
- Authors: Saurabh Page, Advait Joshi, S. S. Sonawane,
- Abstract要約: MuonAllを導入し、2次元行列に変換することで、Muon内の全てのパラメータを組み込む。
我々は、最大50億のパラメータを持つ公開言語モデルに対して、広範囲にわたる微調整実験を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Muon optimizer has demonstrated robust results in pretraining of language models but its performance in finetuning of existing public pretrained models is not yet explored. Currently, Muon is used along with AdamW introducing a scope of improvement for adopting all parameters inside Muon. We introduce MuonAll, which incorporates all the parameters inside Muon by transforming into 2D matrices. We conduct extensive finetuning experiments across publicly available language models with model sizes upto half billion parameters. Muon and MuonAll perform at par with AdamW across major benchmarks, highlighting their effectiveness as alternative optimizers. We open-source the distributed implementations of Muon and MuonAll, available at https://github.com/Saurabh750/optimizer
- Abstract(参考訳): ミューオンオプティマイザは、言語モデルの事前訓練において堅牢な結果を示したが、既存の公開事前訓練モデルの微調整性能はまだ検討されていない。
現在、MuonはAdamWとともに、Muon内のすべてのパラメータを採用するための改善のスコープを導入している。
MuonAllを導入し、2次元行列に変換することで、Muon内の全てのパラメータを組み込む。
我々は、最大50億のパラメータを持つ公開言語モデルに対して、広範囲にわたる微調整実験を行う。
MuonとMuonAllは主要なベンチマークでAdamWと同等に動作し、代替オプティマイザとしての有効性を強調している。
https://github.com/Saurabh750/optimizer.comで入手できるMuonとMuonAllの分散実装をオープンソースにしています。
関連論文リスト
- NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。
我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文 参考訳(メタデータ) (2025-10-07T01:13:41Z) - Muon Outperforms Adam in Tail-End Associative Memory Learning [118.98991042050532]
機能埋め込みにかかわらず,Muonはクラス間のバランスの取れた学習を一貫して達成している。
我々の経験的観察と理論的分析により、ムオンの核となる利点が明らかとなり、その更新規則は線形連想記憶の外積構造と一致している。
論文 参考訳(メタデータ) (2025-09-30T10:04:08Z) - LiMuon: Light and Fast Muon Optimizer for Large Models [45.11415579822849]
大規模モデルのトレーニングに有用なMuonを提案する。
私たちのLiMuonは、現在のMuonとその変種よりもメモリが低い。
一般化された滑らかな条件下でLiMuonがサンプルO(epsilon-3)$であることを証明する。
論文 参考訳(メタデータ) (2025-09-18T02:49:27Z) - AdaMuon: Adaptive Muon Optimizer [11.281916426508216]
AdaMuonは、要素の適応性と、大規模なニューラルネットワークトレーニングのための直交更新を組み合わせる。
AdaMuonは安定性を維持しているが、大規模シナリオではAdamを40%以上のトレーニング効率で上回ることができる。
論文 参考訳(メタデータ) (2025-07-15T05:49:37Z) - Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。