Fugu-MT 論文翻訳(概要): Muon is Scalable for LLM Training

論文の概要: Muon is Scalable for LLM Training

arxiv url: http://arxiv.org/abs/2502.16982v1
Date: Mon, 24 Feb 2025 09:12:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.495357
Title: Muon is Scalable for LLM Training
Title（参考訳）: Muon は LLM トレーニングにスケーラブルである
Authors: Jingyuan Liu, Jianlin Su, Xingcheng Yao, Zhejun Jiang, Guokun Lai, Yulun Du, Yidao Qin, Weixin Xu, Enzhe Lu, Junjie Yan, Yanru Chen, Huabin Zheng, Yibo Liu, Shaowei Liu, Bohong Yin, Weiran He, Han Zhu, Yuzhi Wang, Jianzhou Wang, Mengnan Dong, Zheng Zhang, Yongsheng Kang, Hao Zhang, Xinran Xu, Yutao Zhang, Yuxin Wu, Xinyu Zhou, Zhilin Yang,
Abstract要約: MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
参考スコア（独自算出の注目度）: 50.68746986439438
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Recently, the Muon optimizer based on matrix orthogonalization has demonstrated strong results in training small-scale language models, but the scalability to larger models has not been proven. We identify two crucial techniques for scaling up Muon: (1) adding weight decay and (2) carefully adjusting the per-parameter update scale. These techniques allow Muon to work out-of-the-box on large-scale training without the need of hyper-parameter tuning. Scaling law experiments indicate that Muon achieves $\sim\!2\times$ computational efficiency compared to AdamW with compute optimal training. Based on these improvements, we introduce Moonlight, a 3B/16B-parameter Mixture-of-Expert (MoE) model trained with 5.7T tokens using Muon. Our model improves the current Pareto frontier, achieving better performance with much fewer training FLOPs compared to prior models. We open-source our distributed Muon implementation that is memory optimal and communication efficient. We also release the pretrained, instruction-tuned, and intermediate checkpoints to support future research.
Abstract（参考訳）: 近年,行列直交化に基づくMuonオプティマイザは,小規模言語モデルの訓練において大きな成果を上げているが,大規模モデルへの拡張性は証明されていない。そこで本研究では,(1)体重減少を加味し,(2)パラメータごとの更新スケールを慎重に調整する2つの重要な手法を同定した。これらの技術により、Muonはハイパーパラメータチューニングを必要とせずに、大規模トレーニングを最初から実行することができる。法実験のスケーリングは、Muonが$\sim\! 2\times$計算効率をAdamWと比較した。これらの改良に基づき,Muonを用いて5.7TトークンでトレーニングしたMoEモデルであるMoonlightを導入する。我々のモデルは現在のParetoフロンティアを改善し、従来のモデルに比べてトレーニングのFLOPをはるかに少なくしてパフォーマンスを向上する。メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。また、今後の研究を支援するために、事前訓練された、訓練された、中間的なチェックポイントもリリースします。

関連論文リスト

NuMuon: Nuclear-Norm-Constrained Muon for Compressible LLM Training [50.27276603708547]
フルランク更新を行うにもかかわらず,無音訓練モデルでは重み行列の低ランク構造が顕著に示され,標準パイプラインで容易に圧縮可能であることを示す。更新方向の核ノルム制約でミューオンを増強し,低ランク構造への学習重み付けをさらに制限するNuMuonを提案する。
論文参考訳（メタデータ） (2026-03-04T00:10:14Z)
Muon+: Towards Better Muon via One Additional Normalization Step [18.816463168231618]
我々は,ミュオンの簡易かつ効果的な拡張,すなわちミュオン+を提案する。モデルスケールとアーキテクチャの広範な事前学習実験を通じて,Muon+の有効性を実証する。
論文参考訳（メタデータ） (2026-02-25T04:04:00Z)
Variance-Adaptive Muon: Accelerating LLM Pretraining with NSR-Modulated and Variance-Scaled Momentum [19.385264518362472]
大規模言語モデル(LLM)は、多種多様な自然言語処理(NLP)タスク間の競合性能を達成する。モーメントに分散適応正規化を適用するMuon-NSRとMuon-VSの2つの変種を提案する。 GPT-2 と LLaMA プレトレーニング実験により,提案手法は収束を加速し,AdamW と Muon の両ベースラインの競合よりも連続的に検証損失を減少させることを示した。
論文参考訳（メタデータ） (2026-01-21T02:41:56Z)
MuonAll: Muon Variant for Efficient Finetuning of Large Language Models [0.0]
MuonAllを導入し、2次元行列に変換することで、Muon内の全てのパラメータを組み込む。我々は、最大50億のパラメータを持つ公開言語モデルに対して、広範囲にわたる微調整実験を行う。
論文参考訳（メタデータ） (2025-11-08T17:45:20Z)
NorMuon: Making Muon more efficient and scalable [71.49702449498085]
我々はアダムの後継としてノームーンを提案する。我々は、NorMuonがAdamとMuonの両方を一貫して上回り、Adamより21.74%、Muonより11.31%改善していることを示す。
論文参考訳（メタデータ） (2025-10-07T01:13:41Z)
AdaMuon: Adaptive Muon Optimizer [11.281916426508216]
我々は,最近検証されたMuon上に構築された適応学習率フレームワークであるAdaMuonを提案する。提案手法は追加のチューニング負担を伴わず,既存のMuonトレーニングパイプラインにシームレスに統合することができる。
論文参考訳（メタデータ） (2025-07-15T05:49:37Z)
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining [60.02032710118597]
提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。 MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-12T14:30:11Z)
Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
Practical Efficiency of Muon for Pretraining [13.914926836677648]
大規模なバッチサイズでデータ効率を維持する上で、MuonはAdamWよりも効果的であることがわかった。本稿では,資源のオーバーヘッドを最小限に抑えつつ,mulPのすべてのエラー源を考慮に入れた単純なアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-04T19:14:43Z)
Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文参考訳（メタデータ） (2025-01-20T18:33:33Z)
2 OLMo 2 Furious [126.72656187302502]
OLMo 2には、アーキテクチャとトレーニングのレシピを改善した密集した自己回帰モデルが含まれている。我々の最新の事前学習データミックスは、Dolmino Mix 1124と呼ばれる新しい特殊なデータミックスを導入しました。完全にオープンなOLMo 2-Instructモデルは、同等の大きさのオープンウェイトモデルに匹敵するか、上回っている。
論文参考訳（メタデータ） (2024-12-31T21:55:10Z)
Llama 3 Meets MoE: Efficient Upcycling [1.8337958765930928]
本研究では,Llama 3-8B から 8-Expert Top-2 MoE モデルをトレーニングし,事前学習の典型的な計算値の 1% 以下で,事前学習した高密度チェックポイントを活用する効率的なトレーニングレシピを提案する。提案手法は,学術ベンチマークのダウンストリーム性能を向上し,MMLUの0ショット精度を$textbf2%で向上させる。トレーニング済み重量をシームレスに使用するために、NeMoのオンラインアップサイクルも統合し、高容量のMoEモデルの開発に費用対効果が期待できる。
論文参考訳（メタデータ） (2024-12-13T08:22:19Z)
Revisiting MoE and Dense Speed-Accuracy Comparisons for LLM Training [45.97480866595295]
Mixture-of-Experts (MoE)は、計算コストを一定に保ちながら、モデルキャパシティを増大させることにより、パフォーマンスの向上を享受する。我々は高密度から高密度までのステップタイムを健全な範囲で増加させる3Dシャーディング法を採用した。
論文参考訳（メタデータ） (2024-05-23T21:00:53Z)
Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文参考訳（メタデータ） (2024-04-03T16:33:42Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文参考訳（メタデータ） (2021-06-20T15:43:54Z)
Large Product Key Memory for Pretrained Language Models [12.932177565788974]
製品キーメモリ(PKM)は、計算オーバーヘッドの少ないモデル容量を効率的に増やし、予測精度を向上させる。近年のPLM(Pretrained Language Model)の成功に触発されて,多種多様なNLPタスクに適する大規模なPKMをPLMに組み込む方法について検討した。
論文参考訳（メタデータ） (2020-10-08T10:19:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。