Fugu-MT 論文翻訳(概要): PreScope: Unleashing the Power of Prefetching for Resource-Constrained MoE Inference

論文の概要: PreScope: Unleashing the Power of Prefetching for Resource-Constrained MoE Inference

arxiv url: http://arxiv.org/abs/2509.23638v1
Date: Sun, 28 Sep 2025 04:35:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:19.342498
Title: PreScope: Unleashing the Power of Prefetching for Resource-Constrained MoE Inference
Title（参考訳）: PreScope: リソース制約付きMoE推論のためのプレフェッチのパワーを解放する
Authors: Enda Yu, Zhaoning Zhang, Dezun Dong, Yongwei Wu, Xiangke Liao,
Abstract要約: メモリへの専門家の重み付けは、計算を数倍超えるPCIe転送遅延をもたらす。予測駆動型エキスパートスケジューリングシステムPreScopeについて述べる。 PreScopeは141%のスループットと74.6%のレイテンシを実現している。
参考スコア（独自算出の注目度）: 10.859168542656612
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mixture-of-Experts (MoE) models face memory and PCIe latency bottlenecks when deployed on commodity hardware. Offloading expert weights to CPU memory results in PCIe transfer latency that exceeds GPU computation by several folds. We present PreScope, a prediction-driven expert scheduling system that addresses three key challenges: inaccurate activation prediction, PCIe bandwidth competition, and cross-device scheduling complexity. Our solution includes: 1) Learnable Layer-Aware Predictor (LLaPor) that captures layer-specific expert activation patterns; 2) Prefetch-Aware Cross-Layer Scheduling (PreSched) that generates globally optimal plans balancing prefetching costs and loading overhead; 3) Asynchronous I/O Optimizer (AsyncIO) that decouples I/O from computation, eliminating waiting bubbles. PreScope achieves 141% higher throughput and 74.6% lower latency than state-of-the-art solutions.
Abstract（参考訳）: Mixture-of-Experts (MoE)モデルでは、コモディティハードウェアにデプロイすると、メモリとPCIeレイテンシのボトルネックが発生する。専門家の重みをCPUメモリにオフロードすると、PCIe転送遅延が発生し、GPU計算を数倍超える。提案するPreScopeは,不正確なアクティベーション予測,PCIe帯域幅競争,デバイス間スケジューリング複雑性の3つの課題に対処する,予測駆動型エキスパートスケジューリングシステムである。私たちのソリューションは以下のとおりです。 1) レイヤ固有の専門家アクティベーションパターンをキャプチャする学習可能なレイヤ認識予測器(LLaPor) 2) プレフェッチコストと負荷オーバーヘッドのバランスをとるグローバルな最適計画を生成するプレフェッチ対応クロスレイヤスケジューリング(PreSched) 3) 非同期I/Oオプティマイザ(AsyncIO)は、I/Oを計算から切り離し、待機バブルを排除します。 PreScopeは141%のスループットと74.6%のレイテンシを実現している。

関連論文リスト

$\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting [12.317709090608837]
SpecEEは投機的早期終了を伴う高速推論エンジンである。 SpecEEはクラウドとPCのシナリオでそれぞれLlama2-7Bで2.25倍と2.43倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-04-11T02:38:53Z)
MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing [0.6445605125467574]
Mixture-of-Experts (MoE)モデルアーキテクチャは、トランスフォーマーモデルを効率的にスケーリングするための有望なソリューションとして登場した。 MoEモデルはGPUデバイスに分散する必要があるため、重要なパフォーマンスボトルネックに直面している。本稿では,トークンルーティングコストとデバイス間のトークン処理バランスを最小化する,最適専門家対GPU割り当てを提案する。
論文参考訳（メタデータ） (2025-02-10T16:34:36Z)
DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。 Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文参考訳（メタデータ） (2024-12-16T07:59:21Z)
POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。 POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文参考訳（メタデータ） (2024-10-23T17:06:56Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。