論文の概要: EMO: Frustratingly Easy Progressive Training of Extendable MoE
- arxiv url: http://arxiv.org/abs/2605.13247v2
- Date: Thu, 14 May 2026 02:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.387487
- Title: EMO: Frustratingly Easy Progressive Training of Extendable MoE
- Title(参考訳): EMO: 拡張可能なMoEの段階的トレーニングをフラストレーションに簡単に
- Authors: Linghao Jin, Chufan Shi, Huijuan Wang, Nuan Wen, Zhengzhong Liu, Eric Xing, Xuezhe Ma,
- Abstract要約: 現在のMoEトレーニングは、初期データがそのような能力を完全に活用していないとしても、当初から多くの専門家を割り当てている、と我々は主張する。
これは、MOE容量を拡張可能なメモリとして扱い、トレーニングの過程でエキスパートプールを成長させる単純なプログレッシブトレーニングフレームワークである。
- 参考スコア(独自算出の注目度): 21.653288033373745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse Mixture-of-Experts (MoE) models offer a powerful way to scale model size without increasing compute, as per-token FLOPs depend only on k active experts rather than the total pool of E experts. Yet, this asymmetry creates an MoE efficiency paradox in practice: adding more experts balloons memory and communication costs, making actual training inefficient. We argue that this bottleneck arises in part because current MoE training allocates too many experts from the beginning, even though early-stage data may not fully utilize such capacity. Motivated by this, we propose EMO, a simple progressive training framework that treats MoE capacity as expandable memory and grows the expert pool over the course of training. EMO explicitly models sparsity in scaling law to derive stage-wise compute-optimal token budgets for progressive expansion. Empirical results show that EMO matches the performance of a fixed-expert setup in large-scale experiments while improving wall-clock efficiency. It offers a surprisingly simple yet effective path to scalable MoE training, preserving the benefits of large expert pools while reducing both training time and GPU cost.
- Abstract(参考訳): Sparse Mixture-of-Experts (MoE)モデルは、計算量を増やすことなくモデルサイズをスケールする強力な方法を提供する。
しかし、この非対称性は、実際にはMoE効率のパラドックスを生み出します。
現在のMoEトレーニングは、初期段階のデータがそのような能力を完全に活用できないとしても、当初から多くの専門家を割り当てているため、このボトルネックが生じるのではないか、と私たちは主張する。
これは、MOE容量を拡張可能なメモリとして扱い、トレーニングの過程でエキスパートプールを成長させる単純なプログレッシブトレーニングフレームワークである。
EMOは、段階的に計算最適化されたトークン予算をプログレッシブ展開のために導出する法則の幅を明示的にモデル化する。
実験結果から,EMOは壁面の効率を向上しつつ,大規模な実験において,固定熟練装置の性能と一致していることがわかった。
スケーラブルなMoEトレーニングへの驚くほどシンプルで効果的なパスを提供し、大規模なエキスパートプールのメリットを保ちながら、トレーニング時間とGPUコストを削減します。
関連論文リスト
- Uncovering Intra-expert Activation Sparsity for Efficient Mixture-of-Expert Model Execution [34.06023804017819]
我々は,MoEモデルにおいて,経験的アクティベーション空間を相補的かつ未探索の空間空間次元として探求し,活用する。
驚くべきことに、既存のトレーニング済みのMoEモデルでは、相当な試験内間隔が容易に利用できる。
我々は、不活性ニューロンの計算をスキップすることで、エキスパート内アクティベーション間隔を活用するために、vLLMのMoE実行パイプラインを拡張した。
論文 参考訳(メタデータ) (2026-05-09T00:34:55Z) - LightMoE: Reducing Mixture-of-Experts Redundancy through Expert Replacing [45.54173919316335]
本稿では,エキスパートリプレースという新しい圧縮パラダイムを提案する。
冗長な専門家をパラメータ効率のよいモジュールに置き換え、低いトレーニングコストでその能力を回復する。
実験結果から,LightMoEはLoRAファインチューニングの性能を30%圧縮比で比較した。
論文 参考訳(メタデータ) (2026-03-13T04:33:08Z) - Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - Elastic MoE: Unlocking the Inference-Time Scalability of Mixture-of-Experts [43.63398524449102]
Mixture-of-Experts (MoE)モデルは通常、トレーニングと推論の両方でアクティベートされた専門家の数を$k$に修正する。
新たなトレーニングフレームワークであるElastic Mixture-of-Experts(EMoE)を導入しました。
論文 参考訳(メタデータ) (2025-09-26T05:29:19Z) - Faster MoE LLM Inference for Extremely Large Models [75.57674991584608]
きめ細かいMoEモデルは人気を集めているが、研究は限られている。
アクティベートされた専門家の数を削減すれば、特定のシナリオにおける大幅な効率改善につながる可能性がある。
性能劣化を伴わずにスループットを少なくとも10%向上させることができる。
論文 参考訳(メタデータ) (2025-05-06T13:41:17Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。