論文の概要: PLA-Serve: A Prefill-Length-Aware LLM Serving System
- arxiv url: http://arxiv.org/abs/2601.11589v1
- Date: Sun, 04 Jan 2026 18:14:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.776533
- Title: PLA-Serve: A Prefill-Length-Aware LLM Serving System
- Title(参考訳): PLA-Serve:LLMサービングシステム
- Authors: Jianshu She, Zonghang Li, Hongchao Du, Shangyu Wu, Wenhao Zheng, Eric Xing, Zhengzhong Liu, Huaxiu Yao, Jason Xue, Qirong Ho,
- Abstract要約: PLA-Serveは、TTFTレイテンシを低減するために、異なるプロンプト長でリクエストを特定し、分解する。
提案手法は,適応型スケジューリング戦略のモチベーションとして,応答長の変動がボトルネックを生じさせることを観察する。
PLA-Serveは、プリフィル*-Lang*デコードデアグリゲーションの下でのバニラSGと比較して、プリフィル遅延を30%以上削減する。
- 参考スコア(独自算出の注目度): 33.313531352453346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: PLA-Serve identifies and disaggregates requests with different prompt lengths in LLM serving to reduce TTFT latency. While recent systems have decoupled the prefill and decode stages to improve throughput, they still rely on unified scheduling policies that fail to adapt to heterogeneous workload characteristics. We observe that prompt-length variations lead to distinct performance bottlenecks, motivating an adaptive scheduling strategy. PLA-Serve disaggregates multi-turn long-prefill requests from short-prefill ones and introduces a length-aware smart batching mechanism for short-prefill workloads. It adopts a dual-queue design that supports temporal disaggregation on a single prefill instance or spatial disaggregation across multiple instances. For short-prefill batches, a batch waiting window and CUDA Graph-based clustering mitigate interference from heterogeneous computation, reducing batching delay and lowering average latency. In real multi-turn workloads, PLA-Serve reduces prefill latency by over 30% compared to vanilla SGLang under prefill**--**decode disaggregation, and further decreases SLO violations by 28% in multi-instance deployments with vanilla data-parallel configuration. Compared to the SGLang router with load balancing, it further lowers SLO violations by 12% in multi-GPU settings. Under high concurrency and mixed-request scenarios, PLA-Serve improves request throughput by 35% serving Qwen2.5-32B model for prefill instance, demonstrating its effectiveness in optimizing heterogeneous LLM serving workloads.
- Abstract(参考訳): PLA-Serveは、TTFTレイテンシを低減するためにLLMで異なるプロンプト長のリクエストを特定し、分解する。
最近のシステムはスループットを改善するためにプリフィルとデコードステージを分離しているが、それでも不均一なワークロード特性に適応できない統一的なスケジューリングポリシーに依存している。
適応型スケジューリング戦略のモチベーションとして,プロンプト長の変動がパフォーマンスのボトルネックを生じさせるのを観察する。
PLA-Serveは、ショート・プレフィルからの複数ターンのロング・プレフィルリクエストを分離し、ショート・プレフィルのワークロードに対して、長さ対応のスマートバッチ機構を導入している。
単一のプリフィルインスタンスの時間的分散をサポートするデュアルキュー設計や、複数のインスタンスをまたいだ空間的分散をサポートする。
ショートプレフィルバッチでは、バッチ待ちウィンドウとCUDA Graphベースのクラスタリングが、不均一な計算からの干渉を緩和し、バッチの遅延を低減し、平均レイテンシを低下させる。
実際のマルチターンワークロードでは、PLA-Serveは、プリフィル**--*デコードデアグリゲーションの下でのバニラSGLangと比較して、プリフィルレイテンシを30%以上削減し、バニラデータ並列構成によるマルチインスタンスデプロイメントにおいて、SLO違反を28%削減する。
ロードバランシングを備えたSGLangルータと比較して、マルチGPU設定でのSLO違反をさらに12%削減する。
高並行性と混合要求シナリオ下では、PLA-Serveは、Qwen2.5-32Bモデルをプリフィルインスタンスとして提供する要求スループットを35%向上させ、不均一なLLMサービスワークロードを最適化する効果を示している。
関連論文リスト
- Why Should the Server Do It All?: A Scalable, Versatile, and Model-Agnostic Framework for Server-Light DNN Inference over Massively Distributed Clients via Training-Free Intermediate Feature Compression [6.932768187544348]
スプリットコンピューティングにおける通信負荷とサーバ負荷の両方を削減するためにIFを圧縮する、リトレーニングフリーでアーキテクチャに依存しないフレームワークであるSLICERを紹介した。
標準的なビジョンとLLMワークロード全体にわたって、SLICERはアップリンクボリュームを最大10倍、サーバGPU時間を最大4.4倍削減する。
論文 参考訳(メタデータ) (2025-11-03T08:44:13Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - BucketServe: Bucket-Based Dynamic Batching for Smart and Efficient LLM Inference Serving [3.620158146761518]
BucketServeは、推論パフォーマンスを最適化するために設計されたバケットベースの動的フレームワークである。
UELLMと比較して1.93倍の要求負荷を達成でき、UELLMよりも1.975倍高いシステム負荷能力を示す。
論文 参考訳(メタデータ) (2025-07-23T01:51:48Z) - AdaServe: Accelerating Multi-SLO LLM Serving with SLO-Customized Speculative Decoding [12.106234303559571]
本稿では,SLO-customized Speculative Decodingによる効率的なマルチSLOサービスを支援するために設計された,最初のサービスシステムであるAdaServeを紹介する。
AdaServeは制約付き最適化問題として機能するマルチSLOを定式化し、ハードウェア対応アルゴリズムを導入した。
システムスループットを最大化しつつ、復号速度のきめ細かい制御を可能にする推測-検証パイプラインを備えている。
論文 参考訳(メタデータ) (2025-01-21T14:15:01Z) - ConServe: Fine-Grained GPU Harvesting for LLM Online and Offline Co-Serving [61.35068981176018]
ConServeは、高いスループットと強力なオンラインレイテンシ保証を実現する大規模言語モデル(LLM)サービスシステムである。
我々は,ConServeが平均2.2$times$高スループットを実現し,オンラインサービステールのレイテンシを最先端システムと比較して平均2.9$times$削減することを示した。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。