論文の概要: Generative Caching for Structurally Similar Prompts and Responses
- arxiv url: http://arxiv.org/abs/2511.17565v1
- Date: Fri, 14 Nov 2025 00:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.282536
- Title: Generative Caching for Structurally Similar Prompts and Responses
- Title(参考訳): 構造的に類似したプロンプトと応答のための生成キャッシング
- Authors: Sarthak Chakraborty, Suman Nath, Xuchao Zhang, Chetan Bansal, Indranil Gupta,
- Abstract要約: 大きな言語モデル(LLM)は、様々なシナリオでタスクを計画、推論、実行するためにますます使われています。
リピータブルやエージェントの設定のようなユースケースでは、プロンプトは小さなバリエーションで再利用されることが多い。
構造的に類似したプロンプトに対して変動認識応答を生成する生成キャッシュである ourmethod を導入する。
- 参考スコア(独自算出の注目度): 15.50345473013337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly being used to plan, reason, and execute tasks across diverse scenarios. In use cases like repeatable workflows and agentic settings, prompts are often reused with minor variations while having a similar structure for recurring tasks. This opens up opportunities for caching. However, exact prompt matching fails on such structurally similar prompts, while semantic caching may produce incorrect responses by ignoring critical differences. To address this, we introduce \ourmethod{}, a generative cache that produces variation-aware responses for structurally similar prompts. \ourmethod{} identifies reusable response patterns across similar prompt structures and synthesizes customized outputs for new requests. We show that \ourmethod{} achieves 83\% cache hit rate, while having minimal incorrect hits on datasets without prompt repetition. In agentic workflows, it improves cache hit rate by $\sim$20\% and reduces end-to-end execution latency by $\sim$34\% compared to standard prompt matching.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々なシナリオでタスクを計画、推論、実行するためにますます使われています。
リピータブルワークフローやエージェント設定のようなユースケースでは、プロンプトは小さなバリエーションで再利用されることが多いが、同じ構造でタスクを繰り返すことができる。
これによりキャッシングの機会が開ける。
しかし、正確なプロンプトマッチングはそのような構造的に類似したプロンプトでは失敗するが、セマンティックキャッシングは重要な違いを無視して誤った応答を生成する可能性がある。
これを解決するために,構造的に類似したプロンプトに対して変動認識応答を生成する生成キャッシュである \ourmethod{} を導入する。
\ourmethod{}は、同様のプロンプト構造にまたがる再利用可能な応答パターンを特定し、新しいリクエストのためにカスタマイズされた出力を合成する。
ここでは,<ourmethod{} が 83% のキャッシュヒット率を達成する一方で,データセットに対するミスマッチが最小限であることを示す。
エージェントワークフローでは、キャッシュヒット率を$\sim$20\%改善し、標準のプロンプトマッチングと比較して、エンドツーエンドの実行遅延を$\sim$34\%削減する。
関連論文リスト
- Asynchronous Verified Semantic Caching for Tiered LLM Architectures [0.7204795910838664]
大規模言語モデル(LLM)は、現在、検索、補助、エージェントの重要な経路にある。
オンラインに集約された動的キャッシュによってバックアップされたログから収集された、キュレートされたオフラインのベットされたレスポンスの静的キャッシュ。
textbfKritesは非同期のLCM-judgedキャッシュポリシで、サービス決定を変更することなく静的カバレッジを拡張する。
論文 参考訳(メタデータ) (2026-02-13T18:25:00Z) - AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - SemanticALLI: Caching Reasoning, Not Just Responses, in Agentic Systems [4.029672905329379]
PMGのマーケティングインテリジェンスプラットフォームのパイプライン対応アーキテクチャであるSemanticALLIを紹介する。
生成をAIR(Analytic Intent Resolution)とVS(Analytic Intent Synthesis)に分解することで、SemanticALLIは中間表現(IR)を第一級のキャッシュ可能なアーティファクトに構造化した。
我々の構造的アプローチは、83.10%のヒット率を達成するための追加のステージである可視化合成ステージを可能にし、4,023 LLMコールを2.66msで通過させる。
論文 参考訳(メタデータ) (2026-01-22T19:42:21Z) - Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - ContextCache: Context-Aware Semantic Cache for Multi-Turn Queries in Large Language Models [33.729482204460815]
このデモでは、マルチターン対話のためのコンテキスト対応セマンティックキャッシュシステムであるContextCacheを紹介した。
ContextCacheは、2段階の検索アーキテクチャを使用し、まず現在のクエリ上でベクトルベースの検索を実行し、潜在的なマッチングを識別し、その後、正確なコンテキストマッチングのための自己認識機構を通じて、現在の対話表現と過去の対話表現を統合する。
キャッシュされた応答は、直接LLM呼び出しの約10倍のレイテンシを示し、会話アプリケーションに対する計算コストの大幅な削減を可能にする。
論文 参考訳(メタデータ) (2025-06-28T07:25:12Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - Prompt Cache: Modular Attention Reuse for Low-Latency Inference [12.610067639587461]
Prompt Cacheは,異なるプロンプトをまたいだ注意状態の再利用により,大規模言語モデル(LLM)の推論を高速化する手法である。
Prompt Cacheはスキーマを使用して、プロンプトモジュールと呼ばれる再利用可能なテキストセグメントを明示的に定義する。
本稿では,特により長いプロンプトに対して,Prompt Cacheがタイム・ツー・ファースト・トークンのレイテンシを著しく低減することを示す。
論文 参考訳(メタデータ) (2023-11-07T18:17:05Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - ARCH: Efficient Adversarial Regularized Training with Caching [91.74682538906691]
逆正則化は、多くの自然言語処理タスクにおけるモデル一般化を改善することができる。
本稿では,複数のエポック毎に摂動を発生・キャッシュする新たな逆正則化手法ARCHを提案する。
提案手法をニューラルネットワーク翻訳と自然言語理解タスクのセットで評価する。
論文 参考訳(メタデータ) (2021-09-15T02:05:37Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。