論文の概要: FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving
- arxiv url: http://arxiv.org/abs/2602.16603v1
- Date: Wed, 18 Feb 2026 16:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.656825
- Title: FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving
- Title(参考訳): Flow Prefill: LLMの作業におけるヘッド・オブ・ライン・ブロッキングを緩和するために、プレフィルスケジューリングのグラニュラ性からプリエンプションを分離する
- Authors: Chia-chi Hsieh, Zan Zong, Xinyang Chen, Jianjiang Li, Jidong Zhai, Lijie Wen,
- Abstract要約: 長期にわたる要求はリソースを独占し、より高いプライオリティの要求を遅らせ、TTFT(Time-to-first-token)サービスレベルの違反を広範囲に発生させる。
本稿では,TTFTに最適化されたサービスシステムであるFlowPrefillを提案する。
FlowPrefillは最先端システムと比較して最大出力を最大5.6$times$に改善することを示す。
- 参考スコア(独自算出の注目度): 13.856291757420012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing demand for large language models (LLMs) requires serving systems to handle many concurrent requests with diverse service level objectives (SLOs). This exacerbates head-of-line (HoL) blocking during the compute-intensive prefill phase, where long-running requests monopolize resources and delay higher-priority ones, leading to widespread time-to-first-token (TTFT) SLO violations. While chunked prefill enables interruptibility, it introduces an inherent trade-off between responsiveness and throughput: reducing chunk size improves response latency but degrades computational efficiency, whereas increasing chunk size maximizes throughput but exacerbates blocking. This necessitates an adaptive preemption mechanism. However, dynamically balancing execution granularity against scheduling overheads remains a key challenge. In this paper, we propose FlowPrefill, a TTFT-goodput-optimized serving system that resolves this conflict by decoupling preemption granularity from scheduling frequency. To achieve adaptive prefill scheduling, FlowPrefill introduces two key innovations: 1) Operator-Level Preemption, which leverages operator boundaries to enable fine-grained execution interruption without the efficiency loss associated with fixed small chunking; and 2) Event-Driven Scheduling, which triggers scheduling decisions only upon request arrival or completion events, thereby supporting efficient preemption responsiveness while minimizing control-plane overhead. Evaluation on real-world production traces shows that FlowPrefill improves maximum goodput by up to 5.6$\times$ compared to state-of-the-art systems while satisfying heterogeneous SLOs.
- Abstract(参考訳): 大規模言語モデル(LLM)の需要が増大する中、サービスシステムは様々なサービスレベルの目的(SLO)で多くの同時要求を処理する必要がある。
これにより、計算集約的なプリフィルフェーズにおけるヘッド・オブ・ライン(HoL)のブロッキングが悪化し、長期にわたる要求がリソースを独占し、より高いプライオリティを遅延させ、TTFT(Time-to-first-token) SLO違反が広範に発生する。
チャンクサイズの削減は応答待ち時間を改善するが、計算効率は低下する一方、チャンクサイズの増大はスループットを最大化するが、ブロッキングを悪化させる。
これは適応的なプリエンプション機構を必要とする。
しかし、スケジュールのオーバーヘッドに対して実行の粒度を動的にバランスさせることは、依然として重要な課題である。
本稿では、スケジューリング周波数からプリエンプションの粒度を分離することで、この競合を解消するTTFT最適化サービスシステムであるFlowPrefillを提案する。
適応的なプリフィルスケジューリングを実現するために、FlowPrefillは2つの重要なイノベーションを紹介している。
1) 演算子レベルプリエンプション(演算子境界を利用する演算子レベルプリエンプション)は、固定された小さなチャンキングに関連する効率損失を伴わず、きめ細かな実行中断を可能にする。
2) イベント駆動スケジューリング(Event-Driven Scheduling)は、要求の到着や完了イベントのみにスケジュール決定をトリガーし、コントロールプレーンのオーバーヘッドを最小限にしつつ、効率的なプリエンプション応答性をサポートする。
実世界の生産トレースの評価によると、FlowPrefillは異種SLOを満足しながら最先端システムと比較して最大出力を5.6$\times$に改善している。
関連論文リスト
- FairBatching: Fairness-Aware Batch Formation for LLM Inference [2.0917668141703207]
この研究は、この不公平の根本原因を特定する:時-時-時-(TBT)の非単調性
本稿では,タスクの充足と復号のリソース割り当てを公平に行う新しいシステムであるFair the Prioritizingを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:43:56Z) - Intra-request branch orchestration for efficient LLM reasoning [52.68946975865865]
大規模言語モデル(LLM)は、複雑なタスクの正確性を改善するために、推論時推論アルゴリズムにますます依存している。
それまでの作業は、トークンの使用を減らすことを中心に、多くの場合、正確さを犠牲にしつつ、他のレイテンシ要因を見越すことに重点を置いていた。
本稿では,LLMサービスシステムであるDUCHESSについて,予測によって導かれるリクエスト内ブランチオーケストレーションにより,精度を犠牲にすることなく,コストとレイテンシを低減できるシステムを提案する。
論文 参考訳(メタデータ) (2025-09-29T15:52:08Z) - HyperFlexis: Joint Design of Algorithms and Systems for Multi-SLO Serving and Fast Scaling [19.154782641360253]
現代の大規模言語モデル(LLM)が提供するシステムは、さまざまな長さ、優先順位、ステージ固有のサービスレベル目標(SLO)を持つ、高度に可変的な要求からの課題に直面している。
我々は,複数のSLO下でのスケジューリングとスケーリングを協調的に最適化するために,アルゴリズムとシステムレベルのイノベーションを統合した統一LLMサービスシステムHyperFlexisを提案する。
論文 参考訳(メタデータ) (2025-08-21T18:40:20Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Priority-Aware Preemptive Scheduling for Mixed-Priority Workloads in MoE Inference [4.7730970530715835]
大規模言語モデルは自然言語処理に革命をもたらしたが、データセンターで効率的に処理するのは難しい。
我々は、Mixture of Experts(MoE)モデル用に設計された新しい推論システムQLLMを紹介する。
QLLMはエキスパートレベルのプリエンプションを可能にし、LS Time-to-First-Token(TTFT)を最小化しながらBEジョブの実行を遅延させる。
論文 参考訳(メタデータ) (2025-03-12T11:56:01Z) - ALISE: Accelerating Large Language Model Serving with Speculative Scheduling [7.367068885621016]
大規模言語モデル(LLM)は、現代の人工知能(AGI)の展望における革命的な進歩を表している。
本稿では, ALISE という新しい効率的な LLM 推論サービスフレームワークを提案する。
ALISEは,AlpacaデータセットとShareGPTデータセットと同じレイテンシ制約の下で,最大1.8xと2.1xの推論処理のスループットを向上することを示す。
論文 参考訳(メタデータ) (2024-10-31T00:58:11Z) - Don't Stop Me Now: Embedding Based Scheduling for LLMs [22.099820814682513]
SRPT(Shortest Remaining Process Time)のようなサイズベースのスケジューリングアルゴリズムは、平均的な要求完了時間を削減することを目的としている。
LLMシステムにおけるメモリオーバーヘッドを考慮した予測型SRPT変種を提案する。
論文 参考訳(メタデータ) (2024-10-01T19:51:07Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。