論文の概要: Tempo: Application-aware LLM Serving with Mixed SLO Requirements
- arxiv url: http://arxiv.org/abs/2504.20068v1
- Date: Thu, 24 Apr 2025 05:55:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.556751
- Title: Tempo: Application-aware LLM Serving with Mixed SLO Requirements
- Title(参考訳): Tempo: SLOの要件を混在させたアプリケーション対応LLM
- Authors: Wei Zhang, Zhiyu Wu, Yi Mu, Banruo Liu, Myungjin Lee, Fan Lai,
- Abstract要約: 我々は、多様なLLMワークロード間のサービスゲインを最大化するように設計されたスケジューラであるTempoを紹介した。
我々の評価によると、Tempoは最先端の設計と比較して、最大で8.3$times$、最大で10.3$times$SLOのサービスゲインを改善する。
- 参考スコア(独自算出の注目度): 7.290735867969561
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The integration of Large Language Models (LLMs) into diverse applications, ranging from interactive chatbots and cloud AIOps to intelligent agents, has introduced a wide spectrum of Service Level Objectives (SLOs) for responsiveness. These workloads include latency-sensitive requests focused on per-token latency in streaming chat, throughput-intensive requests that require rapid full responses to invoke tools, and collective requests with dynamic dependencies arising from self-reflection or agent-based reasoning. This workload diversity, amplified by unpredictable request information such as response lengths and runtime dependencies, makes existing schedulers inadequate even within their design envelopes. In this paper, we define service gain as the useful service delivered by completing requests. We observe that as SLO directly reflects the actual performance needs of requests, completing a request much faster than its SLO (e.g., deadline) yields limited additional service gain. Based on this insight, we introduce Tempo, the first systematic SLO-aware scheduler designed to maximize service gain across diverse LLM workloads. Tempo allocates just enough serving bandwidth to meet each SLO, maximizing residual capacity for others best-effort workloads. Instead of assuming request information or none at all, it adopts a hybrid scheduling strategy: using quantile-based response upper bounds and dependency-graph matching for conservative initial estimates, prioritizing requests by service gain density, and refining decisions online as generation progresses. Our evaluation across diverse workloads, including chat, reasoning, and agentic pipelines, shows that Tempo improves end-to-end service gain by up to 8.3$\times$ and achieves up to 10.3$\times$ SLO goodput compared to state-of-the-art designs
- Abstract(参考訳): 対話型チャットボットやクラウドAIOps、インテリジェントエージェントなど、さまざまなアプリケーションへのLLM(Large Language Models)の統合は、応答性のためのさまざまなサービスレベルオブジェクト(SLO)を導入している。
これらのワークロードには、ストリーミングチャットにおけるトークン毎のレイテンシに焦点を当てたレイテンシ依存性の要求、ツールの起動に高速なフルレスポンスを必要とするスループット集約的な要求、セルフリフレクションやエージェントベースの推論による動的依存関係を備えた集合的な要求が含まれる。
このワークロードの多様性は、レスポンス長やランタイム依存性といった予測不可能な要求情報によって増幅され、既存のスケジューラが設計エンベロープ内でも不十分になります。
本稿では、リクエストの完了によって提供される便利なサービスとして、サービスゲインを定義します。
我々は、SLOが要求の実際のパフォーマンス要求を直接反映するので、リクエストをSLO(例えば、期限)よりもはるかに早く完了すると、制限された追加のサービスゲインが得られることを観察する。
この知見に基づいて,多様なLLMワークロード間のサービスゲインを最大化するように設計された,最初の体系的なSLO対応スケジューラであるTempoを紹介した。
Tempoは各SLOを満たすのに十分な帯域幅を割り当て、他のベストプラクティスのワークロードの残容量を最大化する。
リクエスト情報を仮定する代わりに、Quantileベースの応答上限と依存性グラフマッチングを使用して、保守的な初期推定を行い、サービスゲイン密度によるリクエストの優先順位付けを行い、生成が進むにつれてオンラインで決定を精査する、というハイブリッドなスケジューリング戦略を採用している。
チャット、推論、エージェントパイプラインなど、さまざまなワークロードに対する評価から、Tempoは、最先端の設計と比較して、エンドツーエンドサービスのゲインを最大8.3$\times$で改善し、最大10.3$\times$SLO出力を実現しています。
関連論文リスト
- Efficient LLM Serving on Hybrid Real-time and Best-effort Requests [0.6291443816903801]
BROSは、RT/BEリクエストをコロケーションし、BEリクエストのスループットを維持しながらRTリクエストのレイテンシ要求を満たすことを目的とした、ハイブリッド言語モデル(LLM)サービスシステムである。
RTリクエストのレイテンシ(最大74.20%)を大幅に削減し、サービスレベル目標(SLO)の達成率(最大36.38倍)を改善し、BEリクエストのスループットを低下させる。
論文 参考訳(メタデータ) (2025-04-13T14:16:57Z) - Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。
既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。
プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文 参考訳(メタデータ) (2025-02-19T18:59:30Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z) - HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location [3.348953136575379]
HyGenは、オンラインおよびオフラインワークロードの効率的なコロケーションを可能にする干渉対応LLMサービスシステムである。
運用負荷評価の結果,HyGenのスループットは最大3.87倍,オフラインスループットは5.84倍に向上した。
論文 参考訳(メタデータ) (2025-01-15T16:32:27Z) - Hierarchical Autoscaling for Large Language Model Serving with Chiron [2.767894999702707]
大規模言語モデル(LLM)のサービス提供は、クラウドプロバイダにとってますます重要なワークロードになりつつある。
LLMサービスのための以前のオートスケーラは、不要なスケーリングとリソースのアンダーユーティリティ化につながる要求SLOを考慮しない。
我々は,待ち行列サイズ,利用率,SLOを用いて推定した階層的バックプレッシャを用いた自動スケーラであるChironを紹介する。
論文 参考訳(メタデータ) (2025-01-14T12:57:40Z) - ALISE: Accelerating Large Language Model Serving with Speculative Scheduling [7.367068885621016]
大規模言語モデル(LLM)は、現代の人工知能(AGI)の展望における革命的な進歩を表している。
本稿では, ALISE という新しい効率的な LLM 推論サービスフレームワークを提案する。
ALISEは,AlpacaデータセットとShareGPTデータセットと同じレイテンシ制約の下で,最大1.8xと2.1xの推論処理のスループットを向上することを示す。
論文 参考訳(メタデータ) (2024-10-31T00:58:11Z) - Queue management for slo-oriented large language model serving [3.0134961904579094]
大規模言語モデル(LLM)サービスのためのキュー管理システムであるQLMを提案する。
QLMは、異なるモデルとSLOをまたいだバッチおよびインタラクティブなリクエストをリクエストキューで維持する。
リクエスト待ち時間(RWT)推定器を使用し、リクエストキューでのリクエスト待ち時間を推定する。
論文 参考訳(メタデータ) (2024-06-05T21:17:34Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - Fairness in Serving Large Language Models [45.81800239353461]
本稿では,処理された入出力トークンの数を考慮したコスト関数に基づくサービスフェアネスの定義を提案する。
本稿では,新たなスケジューリングアルゴリズムであるVirtual Counter Token (VTC)を提案する。
サービススケジューラの2倍の厳しい上限を証明し、作業保守の要件に準拠します。
論文 参考訳(メタデータ) (2023-12-31T21:15:54Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z) - Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。
これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。
この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文 参考訳(メタデータ) (2023-10-20T15:01:55Z) - Optimization of Image Transmission in a Cooperative Semantic
Communication Networks [68.2233384648671]
画像伝送のためのセマンティック通信フレームワークを開発した。
サーバは、セマンティックコミュニケーション技術を用いて、画像の集合を協調的にユーザへ送信する。
抽出した意味情報と原画像との相関関係を測定するために,マルチモーダル・メトリックを提案する。
論文 参考訳(メタデータ) (2023-01-01T15:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。