論文の概要: XShare: Collaborative in-Batch Expert Sharing for Faster MoE Inference
- arxiv url: http://arxiv.org/abs/2602.07265v1
- Date: Fri, 06 Feb 2026 23:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.538809
- Title: XShare: Collaborative in-Batch Expert Sharing for Faster MoE Inference
- Title(参考訳): XShare: より高速なMoE推論のためのバッチ内のエキスパート共有
- Authors: Daniil Vankov, Nikita Ivkin, Kyle Ulrich, Xiang Song, Ashish Khetan, George Karypis,
- Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
モジュール最適化問題としてバッチアウェアの専門家選択をモデル化することでこの問題に対処する。
提案手法,すなわちXShareは,選択した専門家の総ゲーティングスコアを最大化することにより,再学習を必要とせず,各バッチに動的に適応する。
- 参考スコア(独自算出の注目度): 26.398691056715037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) architectures are increasingly used to efficiently scale large language models. However, in production inference, request batching and speculative decoding significantly amplify expert activation, eroding these efficiency benefits. We address this issue by modeling batch-aware expert selection as a modular optimization problem and designing efficient greedy algorithms for different deployment settings. The proposed method, namely XShare, requires no retraining and dynamically adapts to each batch by maximizing the total gating score of selected experts. It reduces expert activation by up to 30% under standard batching, cuts peak GPU load by up to 3x in expert-parallel deployments, and achieves up to 14% throughput gains in speculative decoding via hierarchical, correlation-aware expert selection even if requests in a batch drawn from heterogeneous datasets.
- Abstract(参考訳): Mixture-of-Experts (MoE)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
しかし、本番環境では、要求のバッチ化と投機的復号化が専門家の活性化を著しく増幅し、これらの効率の利点を損なう。
バッチ対応の専門家選択をモジュール最適化問題としてモデル化し、デプロイ設定の異なる効率的なグレディアルゴリズムを設計することでこの問題に対処する。
提案手法,すなわちXShareは,選択した専門家の総ゲーティングスコアを最大化することにより,再学習を必要とせず,各バッチに動的に適応する。
標準的なバッチ処理の下では、エキスパートアクティベーションを最大30%削減し、エキスパート並列デプロイメントにおいて、ピークGPU負荷を最大3倍削減し、ヘテロジニアスデータセットから抽出されたバッチ内のリクエストであっても、階層的で相関性に配慮したエキスパート選択を通じて、投機的デコーディングにおいて最大14%のスループット向上を達成する。
関連論文リスト
- Dynamic Expert Sharing: Decoupling Memory from Parallelism in Mixture-of-Experts Diffusion LLMs [22.399470395813577]
Dynamic Expert Sharing (DES) は、MoE最適化をトークン中心のプルーニングからシーケンシャルレベルのコアセット選択に移行する新しいテクニックである。
DESは、独自の専門家アクティベーションを55%以上削減し、レイテンシを最大38%削減し、バニラ精度の99%を維持している。
論文 参考訳(メタデータ) (2026-01-31T20:01:47Z) - Token-Level LLM Collaboration via FusionRoute [60.72307345997823]
FusionRouteはトークンレベルのマルチLLMコラボレーションフレームワークである。
各デコーディングステップで最も適した専門家を選択し、選択した専門家の次のTokenディストリビューションを洗練または修正する補完ロジットをコントリビュートする。
シーケンスレベルのコラボレーションとトークンレベルのコラボレーション、モデルマージ、ダイレクト微調整の両方に優れています。
論文 参考訳(メタデータ) (2026-01-08T16:53:16Z) - Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models [58.54288496296157]
CoE(Chain-of-Experts)は新しいMixture-of-Experts(MoE)アーキテクチャで、各レイヤ内でのシーケンシャルな専門家通信を導入している。
イテレーション間の動的専門家選択をサポートするために、CoEはレイヤ内の各ステップに専用のルータを使用している。
論文 参考訳(メタデータ) (2025-06-23T02:15:43Z) - Advancing MoE Efficiency: A Collaboration-Constrained Routing (C2R) Strategy for Better Expert Parallelism Design [36.35520569052556]
Mixture-of-Experts (MoE)は、ほぼ一定の計算コストを維持しながら、モデルをスケールアップすることに成功している。
我々は、より専門的な専門家グループを促進するために、新しい協調制約付きルーティング(C2R)戦略を提案する。
我々は10下流のNLPベンチマークで0.51%と0.33%の平均性能改善を実現した。
論文 参考訳(メタデータ) (2025-04-02T03:51:59Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z) - Expert-Token Resonance MoE: Bidirectional Routing with Efficiency Affinity-Driven Active Selection [19.365009652356793]
エキスパート-トークン共鳴(ETR)は、専門家-トークン相互作用を再想像する理論的な双方向ルーティング機構である。
ETRは、ベースラインのMoE実装と比較して、エンドツーエンドのトレーニング効率が5.4%-46.6%向上している。
論文 参考訳(メタデータ) (2024-05-24T02:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。