論文の概要: Efficient MoE Inference with Fine-Grained Scheduling of Disaggregated Expert Parallelism
- arxiv url: http://arxiv.org/abs/2512.21487v1
- Date: Thu, 25 Dec 2025 03:22:03 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:03:03.2755
- Title: Efficient MoE Inference with Fine-Grained Scheduling of Disaggregated Expert Parallelism
- Title(参考訳): 分散したエキスパート並列性の細粒度スケジューリングによる効率的なMoE推定
- Authors: Xinglin Pan, Shaohuai Shi, Wenxiang Lin, Yuxin Wang, Zhenheng Tang, Wei Wang, Xiaowen Chu,
- Abstract要約: FinDEPは、タスクオーバーラップを最大化し、MoE推論スループットを改善するDEPのためのきめ細かいタスクスケジューリングアルゴリズムである。
DeepSeek-V2とQwen3-MoEの4つのGPUシステムの実験では、FinDEPは以前の方法よりも最大1.61倍のスループット向上を示している。
- 参考スコア(独自算出の注目度): 32.0077995747942
- License:
- Abstract: The mixture-of-experts (MoE) architecture scales model size with sublinear computational increase but suffers from memory-intensive inference due to KV caches and sparse expert activation. Recent disaggregated expert parallelism (DEP) distributes attention and experts to dedicated GPU groups but lacks support for shared experts and efficient task scheduling, limiting performance. We propose FinDEP, a fine-grained task scheduling algorithm for DEP that maximizes task overlap to improve MoE inference throughput. FinDEP introduces three innovations: 1) partitioning computation/communication into smaller tasks for fine-grained pipelining, 2) formulating a scheduling optimization supporting variable granularity and ordering, and 3) developing an efficient solver for this large search space. Experiments on four GPU systems with DeepSeek-V2 and Qwen3-MoE show FinDEP improves throughput by up to 1.61x over prior methods, achieving up to 1.24x speedup on a 32-GPU system.
- Abstract(参考訳): ミックス・オブ・エキスパート(MoE)アーキテクチャは、モデルサイズをサブ線形の計算量の増加とともにスケールするが、KVキャッシュとスパース専門家アクティベーションによるメモリ集約的推論に悩まされる。
最近の非凝集型エキスパート並列処理(DEP)は、注目と専門家を専用のGPUグループに分散しているが、共有専門家のサポートや効率的なタスクスケジューリング、パフォーマンスの制限はない。
我々は,タスクオーバーラップを最大化し,MoE推論スループットを向上させるDEPのための細粒度タスクスケジューリングアルゴリズムであるFinDEPを提案する。
FinDEPは3つのイノベーションを紹介します。
1)微粒なパイプライン化のための小さなタスクに計算/通信を分割する。
2【変動粒度・順序性を考慮したスケジューリング最適化の定式化】
3)この大規模検索空間の効率的な解法の開発。
DeepSeek-V2とQwen3-MoEの4つのGPUシステムの実験では、FinDEPは以前の手法よりも最大1.61倍のスループットを向上し、32GPUシステムでは最大1.24倍のスピードアップを実現している。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Parm: Efficient Training of Large Sparsely-Activated Models with Dedicated Schedules [15.680276212483292]
本稿では,MP+EP+ESP学習を高速化するParmを提案する。
Parmは、1.13$times$から5.77$times$のスピードアップを実現し、1296年に手動で設定されたMoEレイヤと、2つの現実世界のMoEモデルで約3$times$の改善を行った。
論文 参考訳(メタデータ) (2024-06-30T05:55:11Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - Distributed Deep Learning Inference Acceleration using Seamless
Collaboration in Edge Computing [93.67044879636093]
本稿では,コラボレーティブエッジコンピューティングにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
本研究では,第2エッジサーバ(ES)上のサブタスクの重なり合うゾーンをホストES上で実行し,HALPと命名した新しいタスク協調方式を設計する。
実験結果から,GTX 1080TIとJETSON AGX Xavierでは,単一のタスクに対して1.7-2.0x,バッチ毎に1.7-1.8x,バッチ毎に1.7-1.8x,VGG-16では1.7-2.0xのCNN推論を高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-22T18:39:09Z) - aphBO-2GP-3B: A budgeted asynchronous parallel multi-acquisition
functions for constrained Bayesian optimization on high-performing computing
architecture [4.738678765150249]
非同期制約付きバッチ並列ベイズ最適化法を提案する。
この方法の利点は3倍である。
aphBO-2GP-3Bフレームワークは2つの高忠実度産業応用を用いて実証されている。
論文 参考訳(メタデータ) (2020-03-20T18:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。