論文の概要: Speculative MoE: Communication Efficient Parallel MoE Inference with Speculative Token and Expert Pre-scheduling
- arxiv url: http://arxiv.org/abs/2503.04398v1
- Date: Thu, 06 Mar 2025 12:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 17:59:00.834788
- Title: Speculative MoE: Communication Efficient Parallel MoE Inference with Speculative Token and Expert Pre-scheduling
- Title(参考訳): 投機的MoE:投機的トークンとエキスパート事前スケジューリングによる通信効率の良い並列MoE推論
- Authors: Yan Li, Pengfei Zheng, Shuang Chen, Zewei Xu, Yunfei Du, Zhengang Wang,
- Abstract要約: MoE(Mixture of Experts)は、現代のトランスフォーマーベースのLLM(Large Language Models)を前例のない規模に拡張可能なニューラルネットワークとして普及している。
最先端のMoE推論フレームワークであるDeepSpeed-MoEは、EP(Expert Parallelism)、TP(Tensor Parallel)、DP(Data Parallelism)を含む3D並列パラダイムを採用している。
本研究の目的は,EPの通信オーバヘッドをSpeculative MoEという技術で戦略的に削減し,DeepSpeed-MoEを向上することである。
- 参考スコア(独自算出の注目度): 3.7069003108614265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MoE (Mixture of Experts) prevails as a neural architecture that can scale modern transformer-based LLMs (Large Language Models) to unprecedented scales. Nevertheless, large MoEs' great demands of computing power, memory capacity and memory bandwidth make scalable serving a fundamental challenge and efficient parallel inference has become a requisite to attain adequate throughput under latency constraints. DeepSpeed-MoE, one state-of-the-art MoE inference framework, adopts a 3D-parallel paradigm including EP (Expert Parallelism), TP (Tensor Parallel) and DP (Data Parallelism). However, our analysis shows DeepSpeed-MoE's inference efficiency is largely bottlenecked by EP, which is implemented with costly all-to-all collectives to route token activation. Our work aims to boost DeepSpeed-MoE by strategically reducing EP's communication overhead with a technique named Speculative MoE. Speculative MoE has two speculative parallelization schemes, speculative token shuffling and speculative expert grouping, which predict outstanding tokens' expert routing paths and pre-schedule tokens and experts across devices to losslessly trim EP's communication volume. Besides DeepSpeed-MoE, we also build Speculative MoE into a prevailing MoE inference engine SGLang. Experiments show Speculative MoE can significantly boost state-of-the-art MoE inference frameworks on fast homogeneous and slow heterogeneous interconnects.
- Abstract(参考訳): MoE(Mixture of Experts)は、現代のトランスフォーマーベースのLLM(Large Language Models)を前例のない規模に拡張可能なニューラルネットワークとして普及している。
それでも、大きなMoEsの計算能力、メモリ容量、メモリ帯域幅に対する大きな要求は、スケーラビリティを根本的な課題にし、効率的な並列推論は、レイテンシ制約の下で適切なスループットを達成するための必須条件となっている。
最先端のMoE推論フレームワークであるDeepSpeed-MoEは、EP(Expert Parallelism)、TP(Tensor Parallel)、DP(Data Parallelism)といった3D並列パラダイムを採用している。
しかし,DeepSpeed-MoEの推論効率は,トークンの活性化を誘導するために全集団で費用がかかるEPによって大半がボトルネックになっている。
本研究の目的は,EPの通信オーバヘッドをSpeculative MoEという技術で戦略的に削減し,DeepSpeed-MoEを向上することである。
投機的MoEには、投機的トークンシャッフルと投機的専門家グループという2つの投機的並列化スキームがある。
また、DeepSpeed-MoE以外にも、投機型MoEを一般的なMoE推論エンジンであるSGLangに組み込んでいます。
実験により、Speculative MoEは高速な均一性と遅い異種相互接続上で、最先端のMoE推論フレームワークを著しく向上させることができることが示された。
関連論文リスト
- Multi-Head LatentMoE and Head Parallel: Communication-Efficient and Deterministic MoE Parallelism [7.862911132148511]
Multi-Head LatentMoEとHead Parallelは、$k$、完全にバランスの取れたトラフィック、決定論的通信に関わらず、$O(1)$通信コストを達成する。
MoE と EP と比較すると、HP の Multi-Head LatentMoE は、同じ性能を保ちながら、最大で1.61Times$の速度で走行する。
論文 参考訳(メタデータ) (2026-02-04T18:57:19Z) - ZipMoE: Efficient On-Device MoE Serving via Lossless Compression and Cache-Affinity Scheduling [56.88966608455977]
ZipMoEはエッジデバイスのハードウェア特性とMoEパラメータ固有の統計的冗長性との相乗効果を利用する。
ZipMoEは72.77%の推論遅延低減と6.76タイムのスループットを実現している。
論文 参考訳(メタデータ) (2026-01-29T02:51:59Z) - Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - MoE-SpeQ: Speculative Quantized Decoding with Proactive Expert Prefetching and Offloading for Mixture-of-Experts [29.437264687850874]
提案するMoE-SpeQは,投機的実行と専門家のオフロードを共設計した新しい推論システムである。
MoE-SpeQは、将来のトークンに必要な専門家のシーケンスを予測するために、小さなオンデバイスドラフトモデルを採用している。
Phi-MoEモデルでは,MoE-SpeQは最先端のオフロードフレームワークよりも2.34倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-18T03:40:19Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。
我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文 参考訳(メタデータ) (2025-03-11T14:15:01Z) - Mixture of Cache-Conditional Experts for Efficient Mobile Device Inference [14.57414071160821]
本稿では,トークン生成時に専門家の再利用を活用し,キャッシュの局所性を改善する新しいキャッシュ対応ルーティング戦略を提案する。
モバイルデバイス上での2$times$のスピードアップを実演する。
論文 参考訳(メタデータ) (2024-11-27T18:59:48Z) - WDMoE: Wireless Distributed Mixture of Experts for Large Language Models [68.45482959423323]
大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて大きな成功を収めた。
本稿では,無線ネットワーク上での基地局(BS)およびモバイルデバイスにおけるエッジサーバ間のLLMの協調展開を実現するために,無線分散Mixture of Experts(WDMoE)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-11T02:48:00Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts [4.629608387540524]
ScMoEは、重複する並列化戦略と統合された新しいショートカット接続型MoEアーキテクチャである。
一般的なトップ2のMoEベースラインと比較して、ScMoEはトレーニングで1.49倍、推論で1.82倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-04-07T17:17:23Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。