論文の概要: ExpertFlow: Adaptive Expert Scheduling and Memory Coordination for Efficient MoE Inference
- arxiv url: http://arxiv.org/abs/2510.26730v1
- Date: Thu, 30 Oct 2025 17:29:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.941071
- Title: ExpertFlow: Adaptive Expert Scheduling and Memory Coordination for Efficient MoE Inference
- Title(参考訳): ExpertFlow: 効率的なMoE推論のための適応的エキスパートスケジューリングとメモリ調整
- Authors: Zixu Shen, Kexin Chu, Yifan Zhang, Dawei Xiang, Runxin Wu, Wei Zhang,
- Abstract要約: ExpertFlowは、適応型エキスパートプリフェッチとキャッシュ対応ルーティングを組み合わせた、MoE推論のためのランタイムシステムである。
我々の評価では、ExpertFlowはモデルストール時間をベースラインの0.1%未満に短縮する。
- 参考スコア(独自算出の注目度): 8.296993547783808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The expansion of large language models is increasingly limited by the constrained memory capacity of modern GPUs. To mitigate this, Mixture-of-Experts (MoE) architectures activate only a small portion of parameters during inference, significantly lowering both memory demand and computational overhead. However, conventional MoE inference approaches, which select active experts independently at each layer, often introduce considerable latency because of frequent parameter transfers between host and GPU memory. In addition, current cross-layer prediction strategies, which are typically based on fixed steps, lack adaptability across different hardware platforms and workloads, thereby reducing their robustness and effectiveness. To address these challenges, we present ExpertFlow, a runtime system for MoE inference that combines adaptive expert prefetching and cache-aware routing. ExpertFlow continuously adjusts its prediction horizon for expert activation by leveraging runtime statistics such as transfer bandwidth, parameter dimensionality, and model feedback signals. Furthermore, it incorporates a hybrid cross-layer prediction scheme that fuses pregating information with intermediate computational states to anticipate future expert needs. By adaptively refining prefetching decisions and aligning them with actual usage behavior, ExpertFlow effectively decreases cache misses and removes latency caused by expert swap-ins. Our evaluation demonstrates that ExpertFlow reduces model stall time to less than 0.1% of the baseline, highlighting its capability to optimize MoE inference under stringent memory constraints.
- Abstract(参考訳): 大規模言語モデルの拡張は、現代のGPUの制約付きメモリ容量によってますます制限されている。
これを軽減するため、Mixture-of-Experts (MoE)アーキテクチャは推論中に少数のパラメータのみを活性化し、メモリ需要と計算オーバーヘッドを著しく低減する。
しかし,従来のMoE推論手法では,ホストメモリとGPUメモリ間のパラメータ転送が頻繁に発生するため,各層で独立して専門家を選別することが多い。
さらに、一般的な固定ステップに基づく現在のクロスレイヤ予測戦略では、さまざまなハードウェアプラットフォームやワークロードへの適応性が欠如しているため、堅牢性と効率性が低下している。
これらの課題に対処するために,適応型エキスパートプリフェッチとキャッシュ対応ルーティングを組み合わせた,MoE推論のランタイムシステムであるExpertFlowを提案する。
ExpertFlowは、転送帯域幅、パラメータの寸法、モデルフィードバック信号といったランタイム統計を活用して、エキスパートアクティベーションの予測地平を継続的に調整する。
さらに、予測情報を中間計算状態と融合して将来の専門家のニーズを予測するハイブリッド層予測スキームも組み込まれている。
事前決定を適応的に洗練し、実際の使用行動と整合させることで、ExpertFlowはキャッシュミスを効果的に減らし、専門家のスワップインによるレイテンシを削除する。
評価の結果、ExpertFlowはモデルストール時間をベースラインの0.1%未満に短縮し、ストレントメモリ制約下でのMoE推論を最適化する機能を強調した。
関連論文リスト
- OptPipe: Memory- and Scheduling-Optimized Pipeline Parallelism for LLM Training [13.814101909348183]
Pipeline(PP)は、大規模言語モデル(LLM)トレーニングを複数のデバイスに拡張する標準的なテクニックになっている。
本研究では,パイプラインスケジューリング問題について,原理的最適化の観点から再検討する。
本稿では, メモリ容量, アクティベーション再利用, パイプラインバブル最小化を両立させる制約付き最適化問題としてスケジューリングを定式化する。
論文 参考訳(メタデータ) (2025-10-06T01:06:33Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Klotski: Efficient Mixture-of-Expert Inference via Expert-Aware Multi-Batch Pipeline [39.52960562420227]
混合専門家(MoE)は、計算コストを大幅に増加させることなく、数兆のパラメータまで言語モデルのスケーリングを可能にする。
オフロード技術は、メモリをCPUとディスクから利用し、I/Oと計算を並列化する。
Klotskiは、新しいエキスパート対応マルチバッチパイプラインパラダイムを通じて、パイプラインバブルを著しく低減する効率的なMoE推論エンジンである。
論文 参考訳(メタデータ) (2025-02-09T08:47:06Z) - Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference [31.901686946969786]
Dovetailは異種デバイスの相補的特性と投機的復号化の利点を利用する推論手法である。
Dovetailは、異なるデバイス間で1.79xから10.1xまでの推論スピードアップを実現し、生成したテキストの一貫性と安定性を維持している。
論文 参考訳(メタデータ) (2024-12-25T15:45:18Z) - ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。
実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2~10倍に向上することを示した。
論文 参考訳(メタデータ) (2024-10-23T15:24:54Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。