論文の概要: Efficient Serving for Dynamic Agent Workflows with Prediction-based KV-Cache Management
- arxiv url: http://arxiv.org/abs/2605.06472v1
- Date: Thu, 07 May 2026 15:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.966179
- Title: Efficient Serving for Dynamic Agent Workflows with Prediction-based KV-Cache Management
- Title(参考訳): 予測型KVキャッシュ管理による動的エージェントワークフローの効率的な実行
- Authors: Haoyu Zheng, Fangcheng Fu, Jia Wu, Binhang Yuan, Yongqiang Zhang, Hao Wang, Yuanyuan Zhu, Xiao Yan, Jiawei Jiang,
- Abstract要約: 既存のアプローチでは、エージェントレベルでKV-Cacheを管理するか、ワークフローレベルでキャッシュを管理する。
PBKV(textbfPredictiontextbfBased textbfKV-Cache Management)と呼ばれるシステムを構築する。
各ワークフローに対して、PBKVは、いくつかの将来のステップでエージェントの呼び出しを予測する。
予測に基づいて、PBKVはキャッシュエントリの再利用ポテンシャルを推定し、GPUメモリの高ポテンシャルエントリを保持する。
- 参考スコア(独自算出の注目度): 24.37954347708265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based workflows compose specialized agents to execute complex tasks, and these agents usually share substantial context, allowing KV-Cache reuse to save computation. Existing approaches either manage KV-Cache at agent level and fail to exploit the reuse opportunities within workflows, or manage cache at the workflow level but assume that each workflow calls a static sequence of agents. However, practical workflows are typically dynamic, where the sequence of invoked agents and thus induced cache reuse opportunities depend on the context of each task. To serve such dynamic workflows efficiently, we build a system dubbed PBKV (\textbf{P}rediction-\textbf{B}ased \textbf{KV}-Cache Management). For each workflow, PBKV predicts the agent invocations in several future steps by fusing the guidance from historical workflows and context of the target workflow. Based on the predictions, PBKV estimates the reuse potential of cache entries and keeps the high-potential entries in GPU memory. To be robust to prediction errors, PBKV utilizes the predictions conservatively during both cache eviction and prefetching. Experiments on three workflow benchmarks show that PBKV achieves up to $1.85\times$ speedup over LRU on dynamic workflows, and up to $1.26\times$ speedup over the SOTA baseline KVFlow on the static workflow.
- Abstract(参考訳): LLMベースのワークフローは複雑なタスクを実行するための特殊なエージェントで構成され、これらのエージェントは通常、実際のコンテキストを共有し、KV-Cacheの再利用によって計算を節約する。
既存のアプローチでは、エージェントレベルでKV-Cacheを管理し、ワークフロー内の再利用機会を活用できないか、ワークフローレベルでキャッシュを管理するが、各ワークフローがエージェントの静的シーケンスを呼び出すと仮定する。
しかし、現実的なワークフローは一般的に動的であり、呼び出されたエージェントのシーケンスとキャッシュ再利用の機会がそれぞれのタスクのコンテキストに依存する。
このような動的ワークフローを効率的に処理するために,PBKV(\textbf{P}rediction-\textbf{B}ased \textbf{KV}-Cache Management)と呼ばれるシステムを構築した。
各ワークフローについて、PBKVは、過去のワークフローとターゲットワークフローのコンテキストからのガイダンスを融合することにより、いくつかの将来のステップにおけるエージェント呼び出しを予測する。
予測に基づいて、PBKVはキャッシュエントリの再利用ポテンシャルを推定し、GPUメモリの高ポテンシャルエントリを保持する。
PBKVは、予測エラーに対して堅牢であるために、キャッシュの消去とプリフェッチの両方において、保守的に予測を利用する。
3つのワークフローベンチマークの実験によると、PBKVは動的ワークフローでLRUよりも最大$1.85\times$スピードアップ、静的ワークフローでSOTAベースラインKVFlowよりも最大$1.26\times$スピードアップを達成する。
関連論文リスト
- RelayCaching: Accelerating LLM Collaboration via Decoding KV Cache Reuse [5.597099794399441]
RelayCachingはトレーニング不要な推論手法で、前のエージェントから復号フェーズKVキャッシュを直接再利用する。
RelayCachingは80%以上のKVキャッシュの再利用を実現し、TTFTを標準パイプラインと比較して最大4.7倍のコストで削減できることを示す。
論文 参考訳(メタデータ) (2026-02-28T04:46:28Z) - Learning to Compose for Cross-domain Agentic Workflow Generation [56.630382886594184]
クロスドメインワークフロー生成のためのオープンソースのLLMを作成します。
さまざまなドメインにわたる再利用可能なワークフロー機能のコンパクトなセットを学びます。
当社の1パスジェネレータは、20イテレーションを消費するSOTAリファインメントベースラインを超えています。
論文 参考訳(メタデータ) (2026-02-11T18:27:22Z) - BayesFlow: A Probability Inference Framework for Meta-Agent Assisted Workflow Generation [12.637030045464693]
textbfBayesian Generation (BWG)は、並列ルックアヘッドロールアウトを用いて、重要重み付けのためにステップバイステップで構築するサンプリングフレームワークである。
精製器を使わずに、重み付けされた経験分布が対象の後方に収束することを証明する。
BayesFlowは、SOTAワークフロー生成ベースラインで最大9ポイント、ゼロショットプロンプトで最大65ポイントの精度向上を実現している。
論文 参考訳(メタデータ) (2026-01-29T20:43:20Z) - Do We Always Need Query-Level Workflows? Rethinking Agentic Workflow Generation for Multi-Agent Systems [72.3575737073235]
マルチエージェントシステム(MAS)は、複数のエージェントを協調することで複雑なタスクを解決する。
既存のアプローチはタスクレベルかクエリレベルで生成されるが、その相対的なコストと利点は未だ不明である。
クエリレベルのワークフロー生成は必ずしも必要ではない、なぜなら、トップKレベルのタスクレベルの小さなセットが、すでに同等あるいはそれ以上のクエリをカバーしているからだ。
論文 参考訳(メタデータ) (2026-01-16T10:05:51Z) - WorkflowLLM: Enhancing Workflow Orchestration Capability of Large Language Models [105.46456444315693]
ワークフローオーケストレーションにおける大規模言語モデルの能力を高めるための,データ中心のフレームワークであるLLMを提案する。
最初は106,763のサンプルで大規模な微調整Benchを構築し、28のカテゴリにわたる83のアプリケーションから1,503のAPIをカバーしている。
LlamaLlamaは複雑なAPIをオーケストレーションする能力を示しながら、優れた一般化性能を実現している。
論文 参考訳(メタデータ) (2024-11-08T09:58:02Z) - AFlow: Automating Agentic Workflow Generation [36.61172223528231]
大規模言語モデル(LLM)は、様々な領域にわたる複雑なタスクを解く上で、顕著な可能性を示している。
我々は、Monte Carlo Tree Searchを使って、この空間を効率的に探索する自動化フレームワークであるAFlowを紹介します。
6つのベンチマークデータセットに対する実証的な評価は、AFlowの有効性を示し、最先端のベースラインよりも平均5.7%向上している。
論文 参考訳(メタデータ) (2024-10-14T17:40:40Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。