論文の概要: Fast MoE Inference via Predictive Prefetching and Expert Replication
- arxiv url: http://arxiv.org/abs/2605.11537v1
- Date: Tue, 12 May 2026 05:03:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.595951
- Title: Fast MoE Inference via Predictive Prefetching and Expert Replication
- Title(参考訳): 予測プレフェッチとエキスパートレプリケーションによる高速MoE推論
- Authors: Ankit Jyothish, Ali Jannesari, Aishwarya Sarkar, Joseph Zuber,
- Abstract要約: MoE推論は、最適化されたGPU利用、ロード不均衡、複数のトークンから発生したレイテンシの上昇に悩まされる。
我々は、どの専門家がオーバーロードされるかを予測する動的専門家レプリケーション戦略を提案し、今後のトークンバッチのためにそれらを複製する。
複製された専門家は、並列処理の改善、GPUアイドル時間の短縮、推論の大幅な高速化につながる、レイヤ間でバッチトークンを同時に処理する。
- 参考スコア(独自算出の注目度): 7.16306807191389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Mixture of Experts (MoE) architecture has become a fundamental building block in state-of-the-art large language models (LLMs), improving domain-specific expertise in LLMs and scaling model capacity without proportionally increasing their computational overhead. However, MoE inference often suffers from suboptimal GPU utilization, load imbalance, and elevated latency arising from multiple tokens waiting on the same experts for their computation which arises from sparsity of expert activation. To address these challenges, we propose a dynamic expert replication strategy that predicts which experts are likely to be overloaded and replicates them for upcoming batches of tokens. The replicated experts process batch tokens concurrently across layers, which leads to improved parallelism, shorter GPU idle time, and significantly faster inference. Experimental evaluations conducted on large-scale MoE models, including Switch-base-128 and Switch-base-256, demonstrate that our method achieves near-complete GPU utilization (approx 100%), leading to upto 3x improvement in inference speed while preserving approximately 90-95% of the performance of baseline architectures
- Abstract(参考訳): The Mixture of Experts (MoE) architecture has become a fundamental building block in state-of-the-the-art large language model (LLMs)。
しかし、MoE推論は、しばしば、専門家のアクティベーションの疎さから生じる計算のために、複数のトークンから生じる、最適以下のGPU利用、負荷不均衡、高遅延に悩まされる。
これらの課題に対処するため、我々は、どの専門家がオーバーロードされる可能性が高いかを予測し、今後のトークンのバッチのためにそれらを複製する、動的専門家レプリケーション戦略を提案する。
複製された専門家は、並列処理の改善、GPUアイドル時間の短縮、推論の大幅な高速化につながる、レイヤ間でバッチトークンを同時に処理する。
Switch-base-128 や Switch-base-256 などの大規模 MoE モデルで行った実験により,提案手法がほぼ完全な GPU 利用率 (100% ) を実現し,ベースラインアーキテクチャの性能の約 90-95% を保ちながら,推論速度を最大 3 倍向上させることを示した。
関連論文リスト
- Speculating Experts Accelerates Inference for Mixture-of-Experts [44.31811859704714]
Mixture-of-Experts (MoE)モデルは、大規模言語モデル(LLM)のキャパシティを拡大する手段として人気を集めている。
本稿では、現在計算されている内部モデル表現を活用して、将来の専門家を推測するエキスパートプレフェッチ方式を提案する。
提案手法は,CPUメモリからのエキスパートのオンデマンドロードよりも,出力トークン当たりの最大14%の時間短縮を実現する。
論文 参考訳(メタデータ) (2026-03-09T06:59:47Z) - MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping [52.02659589971978]
我々は,MoE MLLM推論を効果的かつ正確なものにするために,専門家を適応的にスキップする最初のトレーニングフリーフレームワークであるMoDESを提案する。
MoDESは推論速度を大幅に向上させ、プリフィルタイムを2.16$times$、デコードタイムを1.26$times$に改善する。
論文 参考訳(メタデータ) (2025-11-19T18:48:27Z) - MoBiLE: Efficient Mixture-of-Experts Inference on Consumer GPU with Mixture of Big Little Experts [17.518573710849513]
MoBiLEは、プラグイン・アンド・プレイのオフロードベースのMoE推論フレームワークで、大手専門家のテキストミキサーを備えている。
MoBiLEは、コンシューマGPUシステムのベースラインと比較して1.60倍から1.72倍のスピードアップを実現し、精度の劣化は無視できる。
論文 参考訳(メタデータ) (2025-10-14T10:22:44Z) - LExI: Layer-Adaptive Active Experts for Efficient MoE Model Inference [2.8653469160349077]
我々は、事前訓練されたMoEモデルにおいて、各層当たりのアクティブな専門家の最適な数を決定する、データフリーな最適化手法であるLExIを紹介する。
最先端の言語とビジョンのMoEベンチマークの実験では、LExIは推論効率の点で従来のMoEプルーニング手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-09-02T19:01:46Z) - Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models [58.54288496296157]
CoE(Chain-of-Experts)は新しいMixture-of-Experts(MoE)アーキテクチャで、各レイヤ内でのシーケンシャルな専門家通信を導入している。
イテレーション間の動的専門家選択をサポートするために、CoEはレイヤ内の各ステップに専用のルータを使用している。
論文 参考訳(メタデータ) (2025-06-23T02:15:43Z) - Accelerating MoE Model Inference with Expert Sharding [1.4733737463429546]
専門家の混合モデル(MoE)は、言語モデリングにおいて最先端の結果を得るが、不均衡なトークンルーティングと通信オーバーヘッドにより、非効率なハードウェア利用に悩まされる。
我々は,MoEエキスパートのテンソルシャーディングを通じて,完全な負荷分散を実現する推論システムであるMoEShardを紹介する。
論文 参考訳(メタデータ) (2025-03-11T14:15:01Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。
MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-10-09T18:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。