論文の概要: Scaling Multi-Node Mixture-of-Experts Inference Using Expert Activation Patterns
- arxiv url: http://arxiv.org/abs/2604.23150v1
- Date: Sat, 25 Apr 2026 05:33:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.182244
- Title: Scaling Multi-Node Mixture-of-Experts Inference Using Expert Activation Patterns
- Title(参考訳): エキスパートアクティベーションパターンを用いたマルチノード混合スペクトル推論のスケーリング
- Authors: Abhimanyu Bambhaniya, Geonhwa Jeong, Jason Park, Jiecao Yu, Jaewon Lee, Pengchao Wang, Changkyu Kim, Chunqiang Tang, Tushar Krishna,
- Abstract要約: スケールでのMoE推論は、専門家の負荷不均衡と非効率なトークンルーティングによってボトルネックとなる。
Llama 4 Maverick, DeepSeek V3-671B, Qwen3-230B-A22B など, SOTA のオープンソース MoE モデルについて検討した。
これらの知見から,ワークロード対応のマイクロバッチグループ化と専門家配置戦略を提案する。
- 参考スコア(独自算出の注目度): 10.028141800987548
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most recent state-of-the-art (SOTA) large language models (LLMs) use Mixture-of-Experts (MoE) architectures to scale model capacity without proportional per-token compute, enabling higher-quality outputs at manageable serving costs. However, MoE inference at scale is fundamentally bottlenecked by expert load imbalance and inefficient token routing, especially in multi-node deployments where tokens are not guaranteed to be routed to local experts, resulting in significant inter-node all-to-all communication overhead. To systematically characterize these challenges, we profile SOTA open-source MoE models, including Llama 4 Maverick, DeepSeek V3-671B, and Qwen3-230B-A22B, on various datasets and collected over 100k real expert activation traces. Upon studying the expert activation patterns, we uncover various persistent properties across all the frontier MoE models: variable expert load imbalance, domain-specific expert activation where expert popularity shifts across task families (code, math, chat, general), and a strong correlation between prefill and decode expert activations. Motivated by these findings, we propose workload-aware micro-batch grouping and an expert placement strategy to maximize token locality to the destination expert, thereby reducing inter-node communication. Across models and datasets, these optimizations help reduce all2all communication data up to 20, resulting in lower MoE decode latency and better accelerator utilization.
- Abstract(参考訳): 最近のSOTA(State-of-the-art)の大規模言語モデル(LLM)では、Mixture-of-Experts (MoE)アーキテクチャを使用して、比例計算なしでモデルキャパシティをスケールし、管理可能なサービスコストで高品質な出力を可能にする。
しかし、大規模なMoE推論は、特にトークンがローカルの専門家にルーティングされることが保証されていないマルチノードデプロイメントにおいて、専門家の負荷不均衡と非効率なトークンルーティングによって、基本的にボトルネックとなる。
Llama 4 Maverick、DeepSeek V3-671B、Qwen3-230B-A22BなどのオープンソースMOEモデルを様々なデータセット上にプロファイリングし、100万以上のリアル専門家アクティベーショントレースを収集した。
専門的なアクティベーションパターンを研究すると、変数専門家の負荷不均衡、タスクファミリー(コード、数学、チャット、一般)間で専門的な人気がシフトするドメイン固有の専門家アクティベーション、プリフィルとデコード専門家アクティベーションの強い相関関係など、すべてのフロンティアMoEモデルにまたがるさまざまな永続性を明らかにする。
これらの結果から,作業負荷を考慮したマイクロバッチグループ化と,宛先の専門家へのトークンの局所性を最大化し,ノード間通信の低減を図るための専門家配置戦略を提案する。
モデルとデータセット全体にわたって、これらの最適化はすべての通信データを20に削減し、MoEデコードレイテンシが低くなり、アクセラレーションの利用が向上する。
関連論文リスト
- Token-Level LLM Collaboration via FusionRoute [60.72307345997823]
FusionRouteはトークンレベルのマルチLLMコラボレーションフレームワークである。
各デコーディングステップで最も適した専門家を選択し、選択した専門家の次のTokenディストリビューションを洗練または修正する補完ロジットをコントリビュートする。
シーケンスレベルのコラボレーションとトークンレベルのコラボレーション、モデルマージ、ダイレクト微調整の両方に優れています。
論文 参考訳(メタデータ) (2026-01-08T16:53:16Z) - AnyExperts: On-Demand Expert Allocation for Multimodal Language Models with Mixture of Expert [26.761443359046286]
我々はAnyExpertsという新しいオンデマンド・予算対応動的ルーティングフレームワークを提案する。
トークンごとに、その意味的重要性に基づいて、可変な専門家スロット数を割り当てる。
視覚的理解、音声理解、NLP理解の様々なタスクにまたがって評価される。
論文 参考訳(メタデータ) (2025-11-23T06:53:43Z) - MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - Advancing MoE Efficiency: A Collaboration-Constrained Routing (C2R) Strategy for Better Expert Parallelism Design [36.35520569052556]
Mixture-of-Experts (MoE)は、ほぼ一定の計算コストを維持しながら、モデルをスケールアップすることに成功している。
我々は、より専門的な専門家グループを促進するために、新しい協調制約付きルーティング(C2R)戦略を提案する。
我々は10下流のNLPベンチマークで0.51%と0.33%の平均性能改善を実現した。
論文 参考訳(メタデータ) (2025-04-02T03:51:59Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - LocMoE: A Low-Overhead MoE for Large Language Model Training [13.153904674287546]
本稿では,部分的なノード間通信をノード内通信に変換することで,負荷バランスと局所性を組み合わせた新しいルーティング手法を提案する。
提案されたLocMoEは、古典的なルータと比較して、エポックあたりのトレーニング時間を12.68%削減して22.24%に短縮した。
論文 参考訳(メタデータ) (2024-01-25T03:36:39Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。