論文の概要: Continuum: Efficient and Robust Multi-Turn LLM Agent Scheduling with KV Cache Time-to-Live
- arxiv url: http://arxiv.org/abs/2511.02230v1
- Date: Tue, 04 Nov 2025 03:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.798261
- Title: Continuum: Efficient and Robust Multi-Turn LLM Agent Scheduling with KV Cache Time-to-Live
- Title(参考訳): 継続性:KVキャッシュによる高効率かつロバストなマルチTurn LLMエージェントスケジューリング
- Authors: Hanchen Li, Qiuyang Mang, Runyuan He, Qizheng Zhang, Huanzhi Mao, Xiaokun Chen, Alvin Cheung, Joseph Gonzalez, Ion Stoica,
- Abstract要約: Continuumは、マルチターンエージェントワークロードのジョブ完了時間を最適化するサービスシステムである。
エージェントのツールコール時間を予測することで、Continuumは全ターン数に基づいて、KVキャッシュをGPUメモリに選択的にピン留めする。
Llama-3.1 8B/70Bモデルを用いた実世界のエージェントワークロードに対する評価は、Continuumが平均ジョブ完了時間を大幅に改善することを示している。
- 参考スコア(独自算出の注目度): 30.099614426825834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic LLM applications interleave LLM generation requests with tool calls. These tool calls break the continuity of the workflow by creating pauses between LLM requests, bringing many challenges for the serving system, especially under multi-turn scenarios. Each pause potentially causes KV cache eviction and extra waiting time before entering the continuous batch for the following LLM request. Since these pauses happen for each call, this problem becomes increasingly severe as turn number grow for agentic programs. Previous works either fail to incorporate information from the tool call, evicting KV cache that leads to repetitive prefill or loading, or ignore the continuity of a multi-turn program, creating waiting time between turns that increases per-request latency. We present Continuum, a serving system to optimize job completion time for multi-turn agent workloads by combining tool-aware KV cache timeout with program-level scheduling. By predicting tool call durations in agentic workflows, Continuum selectively pins the KV cache in GPU memory with a time-to-live value based on total turn number. When combined with program-level first-come-first-serve, Continuum prevents scheduling bubbles, preserves multi-turn continuity, and optimizes for throughput for complex agentic workflows. By modeling the variability of tool call and agent program continuity, Continuum outperforms state-of-the-art baselines. Our evaluation on real-world agentic workloads (SWE-Bench and BFCL) with Llama-3.1 8B/70B models shows that Continuum significantly improves the average job completion times, and remains performant across different hardware setups and DRAM offloading schemes. Preview code is available at: https://github.com/Hanchenli/vllm-continuum
- Abstract(参考訳): エージェント LLM アプリケーションは LLM 生成要求をツールコールでインターリーブする。
これらのツールコールは、LLMリクエスト間の一時停止を生成してワークフローの連続性を壊し、特にマルチターンシナリオにおいて、サービスシステムに多くの課題をもたらす。
各一時停止は、次のLLMリクエストの連続バッチに入る前に、KVキャッシュの消去と余分な待ち時間を引き起こす可能性がある。
これらの停止は各呼び出し毎に発生するため、エージェントプログラムのターン数が増加するにつれて、この問題はますます深刻化する。
以前の作業では、ツールコールからの情報を組み込むことができず、繰り返しプリフィルやロードにつながるKVキャッシュを排除したり、マルチターンプログラムの継続性を無視したり、リクエスト毎のレイテンシを増大させるターン間の待ち時間を生成する。
ツールを意識したKVキャッシュタイムアウトとプログラムレベルのスケジューリングを組み合わせることで,マルチターンエージェントワークロードのジョブ完了時間を最適化するサービスシステムであるContinuumを提案する。
エージェントワークフローにおけるツールコール時間を予測することで、Continuumは、全ターン数に基づいて、KVキャッシュをGPUメモリに選択的にピン留めする。
プログラムレベルのファーストカムファーストサービスと組み合わせると、Continuumはバブルのスケジューリングを防ぎ、マルチターン連続性を保ち、複雑なエージェントワークフローのスループットを最適化する。
ツールコールとエージェントプログラムの連続性の変動をモデル化することで、Continuumは最先端のベースラインより優れています。
Llama-3.1 8B/70Bモデルを用いた実世界のエージェントワークロード(SWE-BenchとBFCL)の評価では、Continuumは平均ジョブ完了時間を大幅に改善し、異なるハードウェアセットアップとDRAMオフロードスキームでパフォーマンスが保たれている。
プレビューコードは、https://github.com/Hanchenli/vllm-continuum.comで入手できる。
関連論文リスト
- Semantic-Aware Scheduling for GPU Clusters with Large Language Models [60.14838697778884]
我々は、スケジューラと管理するジョブ間のセマンティックギャップを橋渡しするフレームワークであるSchedMateを提案する。
SchedMateは見過ごされ、構造化されていないデータソース(ソースコード、ランタイムログ、履歴ジョブ)から深い洞察を抽出する。
我々は、SchedMateが平均ジョブ完了時間を最大1.91倍に短縮し、スケジューリング性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-10-02T02:01:02Z) - Real-Time Execution of Action Chunking Flow Policies [49.1574468325115]
本稿では,アクションインタラクションシステムの非同期実行を可能にする新しい推論時アルゴリズムを提案する。
これは、再トレーニングなしでボックスから実行する拡散またはVLAベースのシステムに適用できる。
その結果、RTCは高速で、性能が高く、推論操作に対して一意に堅牢であることがわかった。
論文 参考訳(メタデータ) (2025-06-09T01:01:59Z) - Priority-Aware Preemptive Scheduling for Mixed-Priority Workloads in MoE Inference [4.7730970530715835]
大規模言語モデルは自然言語処理に革命をもたらしたが、データセンターで効率的に処理するのは難しい。
我々は、Mixture of Experts(MoE)モデル用に設計された新しい推論システムQLLMを紹介する。
QLLMはエキスパートレベルのプリエンプションを可能にし、LS Time-to-First-Token(TTFT)を最小化しながらBEジョブの実行を遅延させる。
論文 参考訳(メタデータ) (2025-03-12T11:56:01Z) - Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。
既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。
プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文 参考訳(メタデータ) (2025-02-19T18:59:30Z) - Multi-Bin Batching for Increasing LLM Inference Throughput [19.652542432683234]
大規模言語モデル(LL)は、システムの効率性を向上させるために人気が高まっている。
リクエストはサーバ上のジョブをスケジューリングする重要なステップです。
リクエストは、しばしば異なる生成長を持ち、リソースの未利用を引き起こす。
我々は、この問題をキューイング理論の観点から形式化し、スループット制御ポリシーを設計することを目的とする。
論文 参考訳(メタデータ) (2024-12-03T03:16:12Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal
Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。
都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文 参考訳(メタデータ) (2020-05-27T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。