論文の概要: Generative Caching for Structurally Similar Prompts and Responses
- arxiv url: http://arxiv.org/abs/2511.17565v1
- Date: Fri, 14 Nov 2025 00:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.282536
- Title: Generative Caching for Structurally Similar Prompts and Responses
- Title(参考訳): 構造的に類似したプロンプトと応答のための生成キャッシング
- Authors: Sarthak Chakraborty, Suman Nath, Xuchao Zhang, Chetan Bansal, Indranil Gupta,
- Abstract要約: 大きな言語モデル(LLM)は、様々なシナリオでタスクを計画、推論、実行するためにますます使われています。
リピータブルやエージェントの設定のようなユースケースでは、プロンプトは小さなバリエーションで再利用されることが多い。
構造的に類似したプロンプトに対して変動認識応答を生成する生成キャッシュである ourmethod を導入する。
- 参考スコア(独自算出の注目度): 15.50345473013337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly being used to plan, reason, and execute tasks across diverse scenarios. In use cases like repeatable workflows and agentic settings, prompts are often reused with minor variations while having a similar structure for recurring tasks. This opens up opportunities for caching. However, exact prompt matching fails on such structurally similar prompts, while semantic caching may produce incorrect responses by ignoring critical differences. To address this, we introduce \ourmethod{}, a generative cache that produces variation-aware responses for structurally similar prompts. \ourmethod{} identifies reusable response patterns across similar prompt structures and synthesizes customized outputs for new requests. We show that \ourmethod{} achieves 83\% cache hit rate, while having minimal incorrect hits on datasets without prompt repetition. In agentic workflows, it improves cache hit rate by $\sim$20\% and reduces end-to-end execution latency by $\sim$34\% compared to standard prompt matching.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々なシナリオでタスクを計画、推論、実行するためにますます使われています。
リピータブルワークフローやエージェント設定のようなユースケースでは、プロンプトは小さなバリエーションで再利用されることが多いが、同じ構造でタスクを繰り返すことができる。
これによりキャッシングの機会が開ける。
しかし、正確なプロンプトマッチングはそのような構造的に類似したプロンプトでは失敗するが、セマンティックキャッシングは重要な違いを無視して誤った応答を生成する可能性がある。
これを解決するために,構造的に類似したプロンプトに対して変動認識応答を生成する生成キャッシュである \ourmethod{} を導入する。
\ourmethod{}は、同様のプロンプト構造にまたがる再利用可能な応答パターンを特定し、新しいリクエストのためにカスタマイズされた出力を合成する。
ここでは,<ourmethod{} が 83% のキャッシュヒット率を達成する一方で,データセットに対するミスマッチが最小限であることを示す。
エージェントワークフローでは、キャッシュヒット率を$\sim$20\%改善し、標準のプロンプトマッチングと比較して、エンドツーエンドの実行遅延を$\sim$34\%削減する。
関連論文リスト
- Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - ContextCache: Context-Aware Semantic Cache for Multi-Turn Queries in Large Language Models [33.729482204460815]
このデモでは、マルチターン対話のためのコンテキスト対応セマンティックキャッシュシステムであるContextCacheを紹介した。
ContextCacheは、2段階の検索アーキテクチャを使用し、まず現在のクエリ上でベクトルベースの検索を実行し、潜在的なマッチングを識別し、その後、正確なコンテキストマッチングのための自己認識機構を通じて、現在の対話表現と過去の対話表現を統合する。
キャッシュされた応答は、直接LLM呼び出しの約10倍のレイテンシを示し、会話アプリケーションに対する計算コストの大幅な削減を可能にする。
論文 参考訳(メタデータ) (2025-06-28T07:25:12Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。