論文の概要: Speculative MoE: Communication Efficient Parallel MoE Inference with Speculative Token and Expert Pre-scheduling
- arxiv url: http://arxiv.org/abs/2503.04398v2
- Date: Fri, 07 Mar 2025 11:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:48.854332
- Title: Speculative MoE: Communication Efficient Parallel MoE Inference with Speculative Token and Expert Pre-scheduling
- Title(参考訳): 投機的MoE:投機的トークンとエキスパート事前スケジューリングによる通信効率の良い並列MoE推論
- Authors: Yan Li, Pengfei Zheng, Shuang Chen, Zewei Xu, Yuanhao Lai, Yunfei Du, Zhengang Wang,
- Abstract要約: MoE(Mixture of Experts)は、現代のトランスフォーマーベースのLLM(Large Language Models)を前例のない規模に拡張可能なニューラルネットワークとして普及している。
最先端のMoE推論フレームワークであるDeepSpeed-MoEは、EP(Expert Parallelism)、TP(Tensor Parallel)、DP(Data Parallelism)を含む3D並列パラダイムを採用している。
本研究の目的は,EPの通信オーバヘッドをSpeculative MoEという技術で戦略的に削減し,DeepSpeed-MoEを向上することである。
- 参考スコア(独自算出の注目度): 3.529891364583952
- License:
- Abstract: MoE (Mixture of Experts) prevails as a neural architecture that can scale modern transformer-based LLMs (Large Language Models) to unprecedented scales. Nevertheless, large MoEs' great demands of computing power, memory capacity and memory bandwidth make scalable serving a fundamental challenge and efficient parallel inference has become a requisite to attain adequate throughput under latency constraints. DeepSpeed-MoE, one state-of-the-art MoE inference framework, adopts a 3D-parallel paradigm including EP (Expert Parallelism), TP (Tensor Parallel) and DP (Data Parallelism). However, our analysis shows DeepSpeed-MoE's inference efficiency is largely bottlenecked by EP, which is implemented with costly all-to-all collectives to route token activation. Our work aims to boost DeepSpeed-MoE by strategically reducing EP's communication overhead with a technique named Speculative MoE. Speculative MoE has two speculative parallelization schemes, speculative token shuffling and speculative expert grouping, which predict outstanding tokens' expert routing paths and pre-schedule tokens and experts across devices to losslessly trim EP's communication volume. Besides DeepSpeed-MoE, we also build Speculative MoE into a prevailing MoE inference engine SGLang. Experiments show Speculative MoE can significantly boost state-of-the-art MoE inference frameworks on fast homogeneous and slow heterogeneous interconnects.
- Abstract(参考訳): MoE(Mixture of Experts)は、現代のトランスフォーマーベースのLLM(Large Language Models)を前例のない規模に拡張可能なニューラルネットワークとして普及している。
それでも、大きなMoEsの計算能力、メモリ容量、メモリ帯域幅に対する大きな要求は、スケーラビリティを根本的な課題にし、効率的な並列推論は、レイテンシ制約の下で適切なスループットを達成するための必須条件となっている。
最先端のMoE推論フレームワークであるDeepSpeed-MoEは、EP(Expert Parallelism)、TP(Tensor Parallel)、DP(Data Parallelism)といった3D並列パラダイムを採用している。
しかし,DeepSpeed-MoEの推論効率は,トークンの活性化を誘導するために全集団で費用がかかるEPによって大半がボトルネックになっている。
本研究の目的は,EPの通信オーバヘッドをSpeculative MoEという技術で戦略的に削減し,DeepSpeed-MoEを向上することである。
投機的MoEには、投機的トークンシャッフルと投機的専門家グループという2つの投機的並列化スキームがある。
また、DeepSpeed-MoE以外にも、投機型MoEを一般的なMoE推論エンジンであるSGLangに組み込んでいます。
実験により、Speculative MoEは高速な均一性と遅い異種相互接続上で、最先端のMoE推論フレームワークを著しく向上させることができることが示された。
関連論文リスト
- Mixture of Cache-Conditional Experts for Efficient Mobile Device Inference [14.57414071160821]
本稿では,トークン生成時に専門家の再利用を活用し,キャッシュの局所性を改善する新しいキャッシュ対応ルーティング戦略を提案する。
モバイルデバイス上での2$times$のスピードアップを実演する。
論文 参考訳(メタデータ) (2024-11-27T18:59:48Z) - WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models [3.597163516372061]
EdgeMoEは、Mix-of-expert (MoE) LLM用に設計されたデバイス上の推論エンジンである。
ストレージ階層間でモデルを戦略的に分割することで、メモリと計算の効率を両立させる。
競合するベースラインソリューションと比較してメモリ節約とパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2023-08-28T06:56:08Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。