論文の概要: Elastic MoE: Unlocking the Inference-Time Scalability of Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2509.21892v1
- Date: Fri, 26 Sep 2025 05:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.201428
- Title: Elastic MoE: Unlocking the Inference-Time Scalability of Mixture-of-Experts
- Title(参考訳): Elastic MoE: Mixture-of-Expertsの推論と時間のスケーラビリティを解き放つ
- Authors: Naibin Gu, Zhenyu Zhang, Yuchen Feng, Yilong Chen, Peng Fu, Zheng Lin, Shuohuan Wang, Yu Sun, Hua Wu, Weiping Wang, Haifeng Wang,
- Abstract要約: Mixture-of-Experts (MoE)モデルは通常、トレーニングと推論の両方でアクティベートされた専門家の数を$k$に修正する。
新たなトレーニングフレームワークであるElastic Mixture-of-Experts(EMoE)を導入しました。
- 参考スコア(独自算出の注目度): 43.63398524449102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models typically fix the number of activated experts $k$ at both training and inference. Intuitively, activating more experts at inference $k'$ (where $k'> k$) means engaging a larger set of model parameters for the computation and thus is expected to improve performance. However, contrary to this intuition, we find the scaling range to be so narrow that performance begins to degrade rapidly after only a slight increase in the number of experts. Further investigation reveals that this degradation stems from a lack of learned collaboration among experts. To address this, we introduce Elastic Mixture-of-Experts (EMoE), a novel training framework that enables MoE models to scale the number of activated experts at inference without incurring additional training overhead. By simultaneously training experts to collaborate in diverse combinations and encouraging the router for high-quality selections, EMoE ensures robust performance across computational budgets at inference. We conduct extensive experiments on various MoE settings. Our results show that EMoE significantly expands the effective performance-scaling range, extending it to as much as 2-3$\times$ the training-time $k$, while also pushing the model's peak performance to a higher level.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは通常、トレーニングと推論の両方でアクティベートされた専門家の数を$k$に修正する。
直感的には、$k'> k$($k'> k$)の推論でより多くの専門家を活性化することは、計算のためにより大きなモデルパラメータのセットをエンゲージすることであり、それによってパフォーマンスが向上することが期待されている。
しかし、この直観とは対照的に、スケーリング範囲が非常に狭くなり、専門家の数がわずかに増えただけで、パフォーマンスが急速に低下し始めます。
さらなる調査により、この劣化は専門家の間での学習的なコラボレーションの欠如に起因することが判明した。
これに対処するために,新たなトレーニングフレームワークであるElastic Mixture-of-Experts(EMoE)を導入する。
さまざまな組み合わせで協力し、高品質な選択のためにルータを奨励する専門家を同時に訓練することで、EMoEは推論時の計算予算にわたって堅牢なパフォーマンスを保証する。
各種のMoE設定について広範な実験を行った。
以上の結果から,EMoE は有効性能スケーリング範囲を大幅に拡大し,最大 2-3$\times$ the training-time $k$ まで拡張するとともに,モデルのピーク性能をより高いレベルに押し上げることができた。
関連論文リスト
- CoMoE: Contrastive Representation for Mixture-of-Experts in Parameter-Efficient Fine-tuning [10.215751315734018]
我々は,MoEのモジュール化と特殊化を促進するために,MoE(CoMoE)のコントラスト表現を提案する。
いくつかのベンチマークやマルチタスク環境での実験では、CoMoEはMoEのキャパシティを継続的に向上し、専門家間のモジュール化を促進することができる。
論文 参考訳(メタデータ) (2025-05-23T06:58:44Z) - Efficiently Editing Mixture-of-Experts Models with Compressed Experts [17.21724072692648]
完全エキスパートのコンパクト表現として機能する軽量モジュールである圧縮された専門家の概念を提案する。
我々のアプローチは、他の補助活性化専門家を圧縮専門家に置き換えながら、最も重要な専門家を保護します。
論文 参考訳(メタデータ) (2025-03-01T22:00:03Z) - HMoE: Heterogeneous Mixture of Experts for Language Modeling [45.65121689677227]
伝統的に、Mixture of Experts (MoE)モデルは同一容量の均一なエキスパートを使用する。
本稿では,HMOE(Heterogeneous Mixture of Experts)を提案する。
HMoEは、活性化パラメータを少なくして低い損失を達成し、様々な事前学習評価ベンチマークにおいて、従来の均質なMoEモデルより優れる。
論文 参考訳(メタデータ) (2024-08-20T09:35:24Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。