論文の概要: Don't Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks
- arxiv url: http://arxiv.org/abs/2601.06007v1
- Date: Fri, 09 Jan 2026 18:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.07121
- Title: Don't Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks
- Title(参考訳): キャッシュを壊さない:長距離エージェントタスクにおけるプロンプトキャッシングの評価
- Authors: Elias Lumer, Faheem Nizar, Akshaya Jangiti, Kevin Frank, Anmol Gulati, Mandar Phadate, Vamse Kumar Subbiah,
- Abstract要約: 本稿では,3大言語モデル(LLM)プロバイダ間でのプロンプトキャッシュの総合評価について述べる。
以上の結果から,プロンプトキャッシングによりAPIコストが45~80%削減され,プロバイダ間で13~31%短縮された。
- 参考スコア(独自算出の注目度): 1.2292307778008844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Model (LLM) agents have enabled complex multi-turn agentic tasks requiring extensive tool calling, where conversations can span dozens of API calls with increasingly large context windows. However, although major LLM providers offer prompt caching to reduce cost and latency, its benefits for agentic workloads remain underexplored in the research literature. To our knowledge, no prior work quantifies these cost savings or compares caching strategies for multi-turn agentic tasks. We present a comprehensive evaluation of prompt caching across three major LLM providers (OpenAI, Anthropic, and Google) and compare three caching strategies, including full context caching, system prompt only caching, and caching that excludes dynamic tool results. We evaluate on DeepResearchBench, a multi-turn agentic benchmark where agents autonomously execute real-world web search tool calls to answer complex research questions, measuring both API cost and time to first token (TTFT) across over 500 agent sessions with 10,000-token system prompts. Our results demonstrate that prompt caching reduces API costs by 45-80% and improves time to first token by 13-31% across providers. We find that strategic prompt cache block control, such as placing dynamic content at the end of the system prompt, avoiding dynamic traditional function calling, and excluding dynamic tool results, provides more consistent benefits than naive full-context caching, which can paradoxically increase latency. Our analysis reveals nuanced variations in caching behavior across providers, and we provide practical guidance for implementing prompt caching in production agentic systems.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントの最近の進歩により、大規模なツールコールを必要とする複雑なマルチターンエージェントタスクが可能になった。
しかしながら、主要なLLMプロバイダは、コストとレイテンシを低減するために、迅速なキャッシュを提供するが、エージェントワークロードに対するそのメリットは研究文献で過小評価されている。
我々の知る限りでは、これらのコスト削減を定量化したり、マルチターンエージェントタスクのキャッシュ戦略を比較したりする以前の作業はない。
我々は,3大LLMプロバイダ(OpenAI, Anthropic, Google)間でのプロンプトキャッシュの総合評価を行い,フルコンテキストキャッシュ,システムプロンプトのみキャッシング,動的ツールの結果を除外したキャッシュという3つのキャッシュ戦略を比較した。
マルチターンエージェントベンチマークであるDeepResearchBenchでは,エージェントが実世界のWeb検索ツールコールを自律的に実行し,複雑な研究課題に答え,APIコストとTTFTを,1万件のシステムプロンプトで500以上のエージェントセッションにわたって測定する。
以上の結果から,プロンプトキャッシングによりAPIコストが45~80%削減され,プロバイダ間で13~31%短縮された。
システムプロンプトの最後に動的コンテンツを配置したり、動的な関数呼び出しを回避したり、動的ツールの結果を除外したりといった戦略的なプロンプトキャッシュブロック制御は、パラドックス的にレイテンシを増大させることができるフルコンテキストキャッシュよりも一貫性のある利点を提供する。
本分析では,プロバイダ間のキャッシュ動作の微妙な変化を明らかにし,実運用エージェントシステムに迅速なキャッシュを実装するための実践的なガイダンスを提供する。
関連論文リスト
- Branch-and-Browse: Efficient and Controllable Web Exploration with Tree-Structured Reasoning and Action Memory [69.49061918994882]
Branch-and-Browseは構造化推論処理、コンテキスト記憶、効率的な実行を統一する、きめ細かいWebエージェントフレームワークである。
WebArenaベンチマークでは、Branch-and-Browseはタスク成功率35.8%を達成し、最先端の手法と比較して実行時間を最大40.4%削減している。
論文 参考訳(メタデータ) (2025-10-18T00:45:37Z) - Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - ContextCache: Context-Aware Semantic Cache for Multi-Turn Queries in Large Language Models [33.729482204460815]
このデモでは、マルチターン対話のためのコンテキスト対応セマンティックキャッシュシステムであるContextCacheを紹介した。
ContextCacheは、2段階の検索アーキテクチャを使用し、まず現在のクエリ上でベクトルベースの検索を実行し、潜在的なマッチングを識別し、その後、正確なコンテキストマッチングのための自己認識機構を通じて、現在の対話表現と過去の対話表現を統合する。
キャッシュされた応答は、直接LLM呼び出しの約10倍のレイテンシを示し、会話アプリケーションに対する計算コストの大幅な削減を可能にする。
論文 参考訳(メタデータ) (2025-06-28T07:25:12Z) - A Generative Caching System for Large Language Models [1.2132389187658934]
キャッシングは、大きな言語モデル(LLM)にアクセスする上で、大きなメリットをもたらす可能性がある。
本稿では,LLMを用いたユーザエクスペリエンス向上のための新しいキャッシングシステムを提案する。
生成キャッシングでは、複数のキャッシュされたレスポンスを合成して、これまで見たことのないクエリに対する回答を提供することができます。
論文 参考訳(メタデータ) (2025-03-22T01:17:56Z) - Auditing Prompt Caching in Language Model APIs [77.02079451561718]
大規模言語モデル(LLM)における即時キャッシュによるプライバシリークについて検討する。
OpenAIを含む7つのAPIプロバイダのユーザ間でのグローバルキャッシュ共有を検出します。
OpenAIの埋め込みモデルがデコーダのみのトランスフォーマーであることの証拠が見つかりました。
論文 参考訳(メタデータ) (2025-02-11T18:58:04Z) - SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。
評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文 参考訳(メタデータ) (2024-05-24T08:16:22Z) - MeanCache: User-Centric Semantic Caching for LLM Web Services [8.350378532274405]
キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。
本稿では,LLMベースのサービスのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。
MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
論文 参考訳(メタデータ) (2024-03-05T06:23:50Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。