論文の概要: Elastic MoE: Unlocking the Inference-Time Scalability of Mixture-of-Experts
- arxiv url: http://arxiv.org/abs/2509.21892v1
- Date: Fri, 26 Sep 2025 05:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.201428
- Title: Elastic MoE: Unlocking the Inference-Time Scalability of Mixture-of-Experts
- Title(参考訳): Elastic MoE: Mixture-of-Expertsの推論と時間のスケーラビリティを解き放つ
- Authors: Naibin Gu, Zhenyu Zhang, Yuchen Feng, Yilong Chen, Peng Fu, Zheng Lin, Shuohuan Wang, Yu Sun, Hua Wu, Weiping Wang, Haifeng Wang,
- Abstract要約: Mixture-of-Experts (MoE)モデルは通常、トレーニングと推論の両方でアクティベートされた専門家の数を$k$に修正する。
新たなトレーニングフレームワークであるElastic Mixture-of-Experts(EMoE)を導入しました。
- 参考スコア(独自算出の注目度): 43.63398524449102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models typically fix the number of activated experts $k$ at both training and inference. Intuitively, activating more experts at inference $k'$ (where $k'> k$) means engaging a larger set of model parameters for the computation and thus is expected to improve performance. However, contrary to this intuition, we find the scaling range to be so narrow that performance begins to degrade rapidly after only a slight increase in the number of experts. Further investigation reveals that this degradation stems from a lack of learned collaboration among experts. To address this, we introduce Elastic Mixture-of-Experts (EMoE), a novel training framework that enables MoE models to scale the number of activated experts at inference without incurring additional training overhead. By simultaneously training experts to collaborate in diverse combinations and encouraging the router for high-quality selections, EMoE ensures robust performance across computational budgets at inference. We conduct extensive experiments on various MoE settings. Our results show that EMoE significantly expands the effective performance-scaling range, extending it to as much as 2-3$\times$ the training-time $k$, while also pushing the model's peak performance to a higher level.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは通常、トレーニングと推論の両方でアクティベートされた専門家の数を$k$に修正する。
直感的には、$k'> k$($k'> k$)の推論でより多くの専門家を活性化することは、計算のためにより大きなモデルパラメータのセットをエンゲージすることであり、それによってパフォーマンスが向上することが期待されている。
しかし、この直観とは対照的に、スケーリング範囲が非常に狭くなり、専門家の数がわずかに増えただけで、パフォーマンスが急速に低下し始めます。
さらなる調査により、この劣化は専門家の間での学習的なコラボレーションの欠如に起因することが判明した。
これに対処するために,新たなトレーニングフレームワークであるElastic Mixture-of-Experts(EMoE)を導入する。
さまざまな組み合わせで協力し、高品質な選択のためにルータを奨励する専門家を同時に訓練することで、EMoEは推論時の計算予算にわたって堅牢なパフォーマンスを保証する。
各種のMoE設定について広範な実験を行った。
以上の結果から,EMoE は有効性能スケーリング範囲を大幅に拡大し,最大 2-3$\times$ the training-time $k$ まで拡張するとともに,モデルのピーク性能をより高いレベルに押し上げることができた。
関連論文リスト
- Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。
私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文 参考訳(メタデータ) (2025-09-30T16:56:44Z) - CoMoE: Contrastive Representation for Mixture-of-Experts in Parameter-Efficient Fine-tuning [10.215751315734018]
我々は,MoEのモジュール化と特殊化を促進するために,MoE(CoMoE)のコントラスト表現を提案する。
いくつかのベンチマークやマルチタスク環境での実験では、CoMoEはMoEのキャパシティを継続的に向上し、専門家間のモジュール化を促進することができる。
論文 参考訳(メタデータ) (2025-05-23T06:58:44Z) - MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance [10.817003682434425]
Mixture-of-Experts (MoE) Large Language Model (LLM) は動的ルーティングとスパースアクティベーションを利用して効率とスケーラビリティを向上させる。
後トレーニング量子化(PTQ)は、MoEモデルに適用した場合、精度が著しく低下し、性能が低下する。
本稿では,MoEのスパースと動的特性が量子化に与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-02T08:51:55Z) - Efficiently Editing Mixture-of-Experts Models with Compressed Experts [17.21724072692648]
完全エキスパートのコンパクト表現として機能する軽量モジュールである圧縮された専門家の概念を提案する。
我々のアプローチは、他の補助活性化専門家を圧縮専門家に置き換えながら、最も重要な専門家を保護します。
論文 参考訳(メタデータ) (2025-03-01T22:00:03Z) - HMoE: Heterogeneous Mixture of Experts for Language Modeling [45.65121689677227]
伝統的に、Mixture of Experts (MoE)モデルは同一容量の均一なエキスパートを使用する。
本稿では,HMOE(Heterogeneous Mixture of Experts)を提案する。
HMoEは、活性化パラメータを少なくして低い損失を達成し、様々な事前学習評価ベンチマークにおいて、従来の均質なMoEモデルより優れる。
論文 参考訳(メタデータ) (2024-08-20T09:35:24Z) - Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。
提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。
評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-12T17:25:02Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - SEER-MoE: Sparse Expert Efficiency through Regularization for Mixture-of-Experts [49.01990048827639]
本稿では,事前学習したMoEモデルのメモリフットプリントと計算要求の両方を削減するためのフレームワークSEER-MoEを紹介する。
第1段階では、ヘビーヒッターズカウントガイダンスを使用して専門家の総数を計算し、第2段階では、正則化に基づく微調整戦略を使用して精度の低下を回復する。
実験により,提案手法の有効性を実証し,精度のトレードオフを最小限に抑えた推論効率に最適化したMoEsモデルを試作した。
論文 参考訳(メタデータ) (2024-04-07T22:13:43Z) - Multilinear Mixture of Experts: Scalable Expert Specialization through Factorization [51.98792406392873]
Mixture of Experts (MoE)は、高密度層をより小さくモジュール化された計算に分解する強力な方法を提供する。
大きな課題は、きめ細かい特殊化を達成するのに十分高い専門家の数をスケーリングする計算コストである。
視覚モデルに焦点をあて、この問題に対処するため、Multilinear Mixture of Experts(mu$MoE)層を提案する。
論文 参考訳(メタデータ) (2024-02-19T21:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。