論文の概要: PreScope: Unleashing the Power of Prefetching for Resource-Constrained MoE Inference
- arxiv url: http://arxiv.org/abs/2509.23638v1
- Date: Sun, 28 Sep 2025 04:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.342498
- Title: PreScope: Unleashing the Power of Prefetching for Resource-Constrained MoE Inference
- Title(参考訳): PreScope: リソース制約付きMoE推論のためのプレフェッチのパワーを解放する
- Authors: Enda Yu, Zhaoning Zhang, Dezun Dong, Yongwei Wu, Xiangke Liao,
- Abstract要約: メモリへの専門家の重み付けは、計算を数倍超えるPCIe転送遅延をもたらす。
予測駆動型エキスパートスケジューリングシステムPreScopeについて述べる。
PreScopeは141%のスループットと74.6%のレイテンシを実現している。
- 参考スコア(独自算出の注目度): 10.859168542656612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoE) models face memory and PCIe latency bottlenecks when deployed on commodity hardware. Offloading expert weights to CPU memory results in PCIe transfer latency that exceeds GPU computation by several folds. We present PreScope, a prediction-driven expert scheduling system that addresses three key challenges: inaccurate activation prediction, PCIe bandwidth competition, and cross-device scheduling complexity. Our solution includes: 1) Learnable Layer-Aware Predictor (LLaPor) that captures layer-specific expert activation patterns; 2) Prefetch-Aware Cross-Layer Scheduling (PreSched) that generates globally optimal plans balancing prefetching costs and loading overhead; 3) Asynchronous I/O Optimizer (AsyncIO) that decouples I/O from computation, eliminating waiting bubbles. PreScope achieves 141% higher throughput and 74.6% lower latency than state-of-the-art solutions.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルでは、コモディティハードウェアにデプロイすると、メモリとPCIeレイテンシのボトルネックが発生する。
専門家の重みをCPUメモリにオフロードすると、PCIe転送遅延が発生し、GPU計算を数倍超える。
提案するPreScopeは,不正確なアクティベーション予測,PCIe帯域幅競争,デバイス間スケジューリング複雑性の3つの課題に対処する,予測駆動型エキスパートスケジューリングシステムである。
私たちのソリューションは以下のとおりです。
1) レイヤ固有の専門家アクティベーションパターンをキャプチャする学習可能なレイヤ認識予測器(LLaPor)
2) プレフェッチコストと負荷オーバーヘッドのバランスをとるグローバルな最適計画を生成するプレフェッチ対応クロスレイヤスケジューリング(PreSched)
3) 非同期I/Oオプティマイザ(AsyncIO)は、I/Oを計算から切り離し、待機バブルを排除します。
PreScopeは141%のスループットと74.6%のレイテンシを実現している。
関連論文リスト
- HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。
損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。
Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-16T07:37:23Z) - A Scheduling Framework for Efficient MoE Inference on Edge GPU-NDP Systems [28.86723467729703]
Mixture-of-Experts(MoE)モデルは、モデルキャパシティをアクティブな計算から切り離すことでエッジデプロイメントを容易にするが、その大きなメモリフットプリントは、専門家を専用の処理ユニットにオフロードするほぼデータ処理機能を備えたGPUシステムの必要性を促進する。
エッジベースのGPU-NDPシステムにMoEモデルをデプロイするには、3つの重要な課題がある。1) 非均一な専門家選択と専門家並列性によるNDPユニット間の負荷不均衡、2)NDPユニット内でのエキスパート計算におけるGPU利用不足、3)予測不能な専門家アクティベーションパターンによって必要となる広範なデータ事前プロファイリング。
論文 参考訳(メタデータ) (2026-01-07T15:02:57Z) - SparOA: Sparse and Operator-aware Hybrid Scheduling for Edge DNN Inference [24.492347669238175]
SparOAはディープニューラルネットワーク(DNN)モデルのためのハイブリッド推論フレームワークである。
演算子スケジューリングを最適化するために、疎度と計算強度の両方を使用する。
その結果、SparOAは全てのベースラインと比較して平均1.22-1.31倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-11-21T09:45:28Z) - MoE-SpeQ: Speculative Quantized Decoding with Proactive Expert Prefetching and Offloading for Mixture-of-Experts [29.437264687850874]
提案するMoE-SpeQは,投機的実行と専門家のオフロードを共設計した新しい推論システムである。
MoE-SpeQは、将来のトークンに必要な専門家のシーケンスを予測するために、小さなオンデバイスドラフトモデルを採用している。
Phi-MoEモデルでは,MoE-SpeQは最先端のオフロードフレームワークよりも2.34倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-18T03:40:19Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting [12.317709090608837]
SpecEEは投機的早期終了を伴う高速推論エンジンである。
SpecEEはクラウドとPCのシナリオでそれぞれLlama2-7Bで2.25倍と2.43倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-11T02:38:53Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing [0.6445605125467574]
Mixture-of-Experts (MoE)モデルアーキテクチャは、トランスフォーマーモデルを効率的にスケーリングするための有望なソリューションとして登場した。
MoEモデルはGPUデバイスに分散する必要があるため、重要なパフォーマンスボトルネックに直面している。
本稿では,トークンルーティングコストとデバイス間のトークン処理バランスを最小化する,最適専門家対GPU割り当てを提案する。
論文 参考訳(メタデータ) (2025-02-10T16:34:36Z) - DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。
並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。
Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文 参考訳(メタデータ) (2024-12-16T07:59:21Z) - POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。