論文の概要: SCORPIO: Serving the Right Requests at the Right Time for Heterogeneous SLOs in LLM Inference
- arxiv url: http://arxiv.org/abs/2505.23022v1
- Date: Thu, 29 May 2025 03:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.637934
- Title: SCORPIO: Serving the Right Requests at the Right Time for Heterogeneous SLOs in LLM Inference
- Title(参考訳): SCORPIO:LLM推論における不均質なSLOの適切なタイミングで適切な要求を実行する
- Authors: Yinghao Tang, Tingfeng Lan, Xiuqi Huang, Hui Lu, Wei Chen,
- Abstract要約: 既存のLarge Language Model (LLM) サービスシステムは最大スループットを優先する。
SCORPIOはSLO指向のLLMサービスシステムであり、異種SLOのワークロードに対するシステム出力とSLO達成を最大化するように設計されている。
- 参考スコア(独自算出の注目度): 6.045368624364908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Large Language Model (LLM) serving systems prioritize maximum throughput. They often neglect Service Level Objectives (SLOs) such as Time to First Token (TTFT) and Time Per Output Token (TPOT), which leads to suboptimal SLO attainment. This paper introduces SCORPIO, an SLO-oriented LLM serving system designed to maximize system goodput and SLO attainment for workloads with heterogeneous SLOs. Our core insight is to exploit SLO heterogeneity for adaptive scheduling across admission control, queue management, and batch selection. SCORPIO features a TTFT Guard, which employs least-deadline-first reordering and rejects unattainable requests, and a TPOT Guard, which utilizes a VBS-based admission control and a novel credit-based batching mechanism. Both guards are supported by a predictive module. Evaluations demonstrate that SCORPIO improves system goodput by up to 14.4X and SLO adherence by up to 46.5% compared to state-of-the-art baselines.
- Abstract(参考訳): 既存のLarge Language Model (LLM) サービスシステムは最大スループットを優先する。
彼らはしばしばサービスレベルオブジェクト(SLO)を無視します。例えば、TTFT(Time to First Token)やTPOT(Time Per Output Token)などです。
本稿では,SLOを指向したSLO指向LLMサービスシステムであるSCORPIOについて紹介する。
我々の中核となる洞察は、入出力制御、キュー管理、バッチ選択を含む適応スケジューリングにSLOの不均一性を活用することである。
SCORPIOは、最小限のデアドリン優先のリオーダを採用し、到達不能な要求を拒否するTTFTガードと、VBSベースの入場制御と新しいクレジットベースのバッチ機構を使用するTPOTガードを備えている。
両方のガードは予測モジュールによってサポートされている。
SCORPIOは、最先端のベースラインに比べて14.4XとSLOの付着率を46.5%向上させる。
関連論文リスト
- ELIS: Efficient LLM Iterative Scheduling System with Response Length Predictor [5.097511974401423]
ELIS (Large Language Models) は、ISRTF(Iterative Shortest Remaining Time First)スケジューラを備えた大規模言語モデル(LLM)のサービスシステムである。
ISRTFスケジューラは、最も短い時間で推論タスクを効率的に管理する。
論文 参考訳(メタデータ) (2025-05-14T04:50:00Z) - SLOs-Serve: Optimized Serving of Multi-SLO LLMs [11.102801440968706]
SLOs-Serveは,多段階の大規模言語モデル(LLM)要求に対して,アプリケーションおよびステージ固有のサービスレベル目標(SLO)を提供するように設計されたシステムである。
SLO-Serveの主要なアイデアは、これらのSLO要件を満たすためにトークンの割り当てをカスタマイズすることだ。
論文 参考訳(メタデータ) (2025-04-05T17:41:26Z) - AccelGen: Heterogeneous SLO-Guaranteed High-Throughput LLM Inference Serving for Diverse Applications [8.964981700274059]
多様なアプリケーションに対して異種SLOを保証する高スループット推論サービスであるAccelGenを提案する。
トレース実実験により、AccelGenは1.42-11.21倍のスループット、1.43-13.71倍の高出力、37-90%のSLO達成、そして1.61-12.22倍の応答遅延を達成した。
論文 参考訳(メタデータ) (2025-03-17T21:47:43Z) - Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。
既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。
プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文 参考訳(メタデータ) (2025-02-19T18:59:30Z) - Uni-Sign: Toward Unified Sign Language Understanding at Scale [90.76641997060513]
本稿では,事前学習と下流SLUタスクのギャップを解消する統合事前学習フレームワークを提案する。
Uni-Signは、複数の下流SLUタスクにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-25T11:51:23Z) - AdaServe: Accelerating Multi-SLO LLM Serving with SLO-Customized Speculative Decoding [12.106234303559571]
本稿では,SLO-customized Speculative Decodingによる効率的なマルチSLOサービスを支援するために設計された,最初のサービスシステムであるAdaServeを紹介する。
AdaServeは制約付き最適化問題として機能するマルチSLOを定式化し、ハードウェア対応アルゴリズムを導入した。
システムスループットを最大化しつつ、復号速度のきめ細かい制御を可能にする推測-検証パイプラインを備えている。
論文 参考訳(メタデータ) (2025-01-21T14:15:01Z) - Hierarchical Autoscaling for Large Language Model Serving with Chiron [2.767894999702707]
大規模言語モデル(LLM)のサービス提供は、クラウドプロバイダにとってますます重要なワークロードになりつつある。
LLMサービスのための以前のオートスケーラは、不要なスケーリングとリソースのアンダーユーティリティ化につながる要求SLOを考慮しない。
我々は,待ち行列サイズ,利用率,SLOを用いて推定した階層的バックプレッシャを用いた自動スケーラであるChironを紹介する。
論文 参考訳(メタデータ) (2025-01-14T12:57:40Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud
System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。
まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。
次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。
第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文 参考訳(メタデータ) (2021-01-17T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。