論文の概要: Prompt-Aware Scheduling for Low-Latency LLM Serving
- arxiv url: http://arxiv.org/abs/2510.03243v2
- Date: Fri, 10 Oct 2025 04:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.894137
- Title: Prompt-Aware Scheduling for Low-Latency LLM Serving
- Title(参考訳): 低遅延LDM実行のためのプロンプト対応スケジューリング
- Authors: Yiheng Tao, Yihe Zhang, Matthew T. Dearing, Xin Wang, Yuping Fan, Zhiling Lan,
- Abstract要約: 本稿では,PLMタスクスケジューラPARSを紹介する。
最短ジョブ優先(SJF)スケジューリングを、ペアのランキングとマージンランキングの損失で近似する。
応答長ベースのタスク順序付けを効果的に予測し、オーバーヘッドを最小限に抑えてレイテンシを低減する。
- 参考スコア(独自算出の注目度): 4.410280212028576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient scheduling of LLM inference tasks is essential for achieving low latency and high throughput, particularly with the growing use of reasoning-capable LLMs. Traditional strategies like First-Come-First-Serve (FCFS) often suffer from Head-of-Line (HOL) blocking, where long-running tasks delay shorter ones queued behind them. In this paper, we introduce PARS, a prompt-aware LLM task scheduler that improves serving efficiency by approximating shortest-job-first (SJF) scheduling through pairwise ranking with margin ranking loss. PARS focuses on impactful scheduling decisions and is seamlessly integrated into the state-of-the-art LLM serving system vLLM. It effectively predicts response-length-based task ordering, reducing latency with minimal overhead. Extensive experiments across multiple LLMs and real-world inference datasets show that PARS significantly improves performance, including for reasoning workloads. Furthermore, our cross-model evaluations demonstrate that the design generalizes well, enabling effective scheduling even when predictors are trained on different LLMs.
- Abstract(参考訳): LLM推論タスクの効率的なスケジューリングは、低レイテンシと高スループットを実現するために不可欠である。
First-Come-First-Serve (FCFS) のような従来の戦略は、しばしばヘッド・オブ・ライン(HOL)ブロッキングに悩まされる。
本稿では,最短ジョブ優先(SJF)スケジューリングを,最短ジョブ優先(SJF)スケジューリングとマージンランキング損失のペアランキングで近似することにより,サービス効率を向上させるプロンプト対応LCMタスクスケジューラであるPARSを紹介する。
PARSは影響のあるスケジューリング決定に重点を置いており、最先端のLLMサービスシステムであるvLLMにシームレスに統合されている。
応答長ベースのタスク順序付けを効果的に予測し、オーバーヘッドを最小限に抑えてレイテンシを低減する。
複数のLLMと実世界の推論データセットにわたる大規模な実験は、PARSが推論ワークロードを含むパフォーマンスを著しく改善していることを示している。
さらに, モデル横断評価の結果, 設計の一般化が図られ, 予測器が異なるLLM上で訓練された場合でも, 効果的なスケジューリングが可能となった。
関連論文リスト
- ELIS: Efficient LLM Iterative Scheduling System with Response Length Predictor [5.097511974401423]
ELIS (Large Language Models) は、ISRTF(Iterative Shortest Remaining Time First)スケジューラを備えた大規模言語モデル(LLM)のサービスシステムである。
ISRTFスケジューラは、最も短い時間で推論タスクを効率的に管理する。
論文 参考訳(メタデータ) (2025-05-14T04:50:00Z) - ALISE: Accelerating Large Language Model Serving with Speculative Scheduling [7.367068885621016]
大規模言語モデル(LLM)は、現代の人工知能(AGI)の展望における革命的な進歩を表している。
本稿では, ALISE という新しい効率的な LLM 推論サービスフレームワークを提案する。
ALISEは,AlpacaデータセットとShareGPTデータセットと同じレイテンシ制約の下で,最大1.8xと2.1xの推論処理のスループットを向上することを示す。
論文 参考訳(メタデータ) (2024-10-31T00:58:11Z) - Efficient LLM Scheduling by Learning to Rank [19.33941579312897]
そこで本研究では,要求の集合における出力長の相対的なランクを,学習者によるランク付けによって予測可能であることを示す。
我々は,LLM推論のための新しいスケジューラを開発し,SJFスケジュールを既存手法よりも高速に近似する。
論文 参考訳(メタデータ) (2024-08-28T13:35:54Z) - LLMs can Schedule [3.435169201271934]
ジョブショップスケジューリング問題(JSSP)は、生産プロセスの最適化において重要なハードルであり続けている。
本稿では,JSSPにおけるLarge Language Models(LLM)の可能性について検討する。
驚くべきことに,LLMに基づくスケジューリングは,他のニューラルアプローチに匹敵する性能を達成できることを示した。
論文 参考訳(メタデータ) (2024-08-13T15:53:58Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。