論文の概要: DuetServe: Harmonizing Prefill and Decode for LLM Serving via Adaptive GPU Multiplexing
- arxiv url: http://arxiv.org/abs/2511.04791v1
- Date: Thu, 06 Nov 2025 20:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.57979
- Title: DuetServe: Harmonizing Prefill and Decode for LLM Serving via Adaptive GPU Multiplexing
- Title(参考訳): DuetServe: 適応GPU多重化によるLLMサービングのためのプレフィルとデコード調和
- Authors: Lei Gao, Chaoyi Jiang, Hossein Entezari Zarch, Daniel Wong, Murali Annavaram,
- Abstract要約: DuetServeは、単一のGPU内で分散レベルの分離を実現する統一LLMサービスフレームワークである。
DuetServeは、最先端フレームワークと比較して、低ジェネレーションレイテンシを維持しながら、スループットを最大1.3倍改善する。
- 参考スコア(独自算出の注目度): 15.376910065679994
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern LLM serving systems must sustain high throughput while meeting strict latency SLOs across two distinct inference phases: compute-intensive prefill and memory-bound decode phases. Existing approaches either (1) aggregate both phases on shared GPUs, leading to interference between prefill and decode phases, which degrades time-between-tokens (TBT); or (2) disaggregate the two phases across GPUs, improving latency but wasting resources through duplicated models and KV cache transfers. We present DuetServe, a unified LLM serving framework that achieves disaggregation-level isolation within a single GPU. DuetServe operates in aggregated mode by default and dynamically activates SM-level GPU spatial multiplexing when TBT degradation is predicted. Its key idea is to decouple prefill and decode execution only when needed through fine-grained, adaptive SM partitioning that provides phase isolation only when contention threatens latency service level objectives (SLOs). DuetServe integrates (1) an attention-aware roofline model to forecast iteration latency, (2) a partitioning optimizer that selects the optimal SM split to maximize throughput under TBT constraints, and (3) an interruption-free execution engine that eliminates CPU-GPU synchronization overhead. Evaluations show that DuetServe improves total throughput by up to 1.3x while maintaining low generation latency compared to state-of-the-art frameworks.
- Abstract(参考訳): 現代のLLMサービスシステムは、計算集約型プリフィルとメモリバウンドデコードという、2つの異なる推論フェーズにわたる厳格なレイテンシSLOを満たしながら、高いスループットを維持する必要がある。
既存のアプローチは、(1)共有GPU上で両方のフェーズを集約し、プリフィルとデコードフェーズ間の干渉を引き起こし、TBT(Time-between-tokens)を劣化させる。
本稿では,単一GPU内での分解レベル分離を実現する統一LDMサービスフレームワークであるDuetServeを提案する。
DuetServeはデフォルトで集約モードで動作し、TBT劣化の予測時にSMレベルのGPU空間多重化を動的に起動する。
そのキーとなる考え方は、プレフィルとデコードを実行する必要のある場合にのみ、コンテントがレイテンシサービスレベル目標(SLO)を脅かす場合にのみフェーズ分離を提供する、きめ細かい適応的なSMパーティショニングによって、実行を分離することである。
DuetServeは,(1)注意を意識した屋根線モデルによる反復遅延予測,(2)TBT制約下でスループットを最大化するために最適なSM分割を選択するパーティショニングオプティマイザ,(3)CPU-GPU同期オーバーヘッドを排除した割り込み不要な実行エンジンを統合した。
評価によると、DuetServeは、最先端のフレームワークと比較して、低世代のレイテンシを維持しながら、スループットを最大1.3倍改善している。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - DistZO2: High-Throughput and Memory-Efficient Zeroth-Order Fine-tuning LLMs with Distributed Parallel Computing [4.589472292598182]
細調整された大規模言語モデル(LLM)は、その厳密なスケールのため、リソース集約型のままである。
LLMの分散ゼロオーダー微調整のためのメモリ効率のよいフレームワークであるDistZO2を提案する。
論文 参考訳(メタデータ) (2025-07-03T22:53:34Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - semi-PD: Towards Efficient LLM Serving via Phase-Wise Disaggregated Computation and Unified Storage [6.805644270436825]
本稿では,分散計算と統一ストレージを特徴とする,新たな大規模言語モデル (LLM) サービスシステムであるセミPDを提案する。
最先端システムと比較して、セミPDはより高い要求レートでレイテンシを低く保ち、リクエスト毎の平均エンドツーエンドレイテンシを1.27-2.58倍削減する。
論文 参考訳(メタデータ) (2025-04-28T15:00:03Z) - ConServe: Fine-Grained GPU Harvesting for LLM Online and Offline Co-Serving [61.35068981176018]
ConServeは、高いスループットと強力なオンラインレイテンシ保証を実現する大規模言語モデル(LLM)サービスシステムである。
我々は,ConServeが平均2.2$times$高スループットを実現し,オンラインサービステールのレイテンシを最先端システムと比較して平均2.9$times$削減することを示した。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。