Fugu-MT 論文翻訳(概要): ContextCache: Context-Aware Semantic Cache for Multi-Turn Queries in Large Language Models

論文の概要: ContextCache: Context-Aware Semantic Cache for Multi-Turn Queries in Large Language Models

arxiv url: http://arxiv.org/abs/2506.22791v1
Date: Sat, 28 Jun 2025 07:25:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:53.570335
Title: ContextCache: Context-Aware Semantic Cache for Multi-Turn Queries in Large Language Models
Title（参考訳）: ContextCache: 大規模言語モデルにおけるマルチスレッドクエリのためのコンテキスト対応セマンティックキャッシュ
Authors: Jianxin Yan, Wangze Ni, Lei Chen, Xuemin Lin, Peng Cheng, Zhan Qin, Kui Ren,
Abstract要約: このデモでは、マルチターン対話のためのコンテキスト対応セマンティックキャッシュシステムであるContextCacheを紹介した。 ContextCacheは、2段階の検索アーキテクチャを使用し、まず現在のクエリ上でベクトルベースの検索を実行し、潜在的なマッチングを識別し、その後、正確なコンテキストマッチングのための自己認識機構を通じて、現在の対話表現と過去の対話表現を統合する。キャッシュされた応答は、直接LLM呼び出しの約10倍のレイテンシを示し、会話アプリケーションに対する計算コストの大幅な削減を可能にする。
参考スコア（独自算出の注目度）: 33.729482204460815
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic caching significantly reduces computational costs and improves efficiency by storing and reusing large language model (LLM) responses. However, existing systems rely primarily on matching individual queries, lacking awareness of multi-turn dialogue contexts, which leads to incorrect cache hits when similar queries appear in different conversational settings. This demonstration introduces ContextCache, a context-aware semantic caching system for multi-turn dialogues. ContextCache employs a two-stage retrieval architecture that first executes vector-based retrieval on the current query to identify potential matches and then integrates current and historical dialogue representations through self-attention mechanisms for precise contextual matching. Evaluation of real-world conversations shows that ContextCache improves precision and recall compared to existing methods. Additionally, cached responses exhibit approximately 10 times lower latency than direct LLM invocation, enabling significant computational cost reductions for LLM conversational applications.
Abstract（参考訳）: セマンティックキャッシングは計算コストを大幅に削減し、大きな言語モデル(LLM)の応答を保存・再利用することで効率を向上する。しかし、既存のシステムは個々のクエリのマッチングに大きく依存しており、マルチターンの対話コンテキストに対する認識が欠如しているため、類似したクエリが異なる会話環境に現れるとキャッシュヒットが誤る。このデモでは、マルチターン対話のためのコンテキスト対応セマンティックキャッシュシステムであるContextCacheを紹介した。 ContextCacheは、2段階の検索アーキテクチャを使用し、まず現在のクエリ上でベクトルベースの検索を実行し、潜在的なマッチングを識別し、その後、正確なコンテキストマッチングのための自己認識機構を通じて、現在の対話表現と過去の対話表現を統合する。実世界の会話の評価は、ContextCacheが既存のメソッドと比較して精度とリコールを改善していることを示している。加えて、キャッシュされた応答は直接LLM呼び出しの約10倍のレイテンシを示し、LLM対話型アプリケーションにおいて計算コストの大幅な削減を可能にする。

関連論文リスト

LoopServe: An Adaptive Dual-phase LLM Inference Acceleration System for Multi-Turn Dialogues [55.332261548836485]
LoopServeは、多ターン対話における大規模言語モデルのための適応的な二相推論フレームワークである。既存のベースラインに比べて一貫して優れた効果を発揮する。これは、幅広い長文対話タスクにおける推論を著しく加速する。
論文参考訳（メタデータ） (2025-07-18T06:12:08Z)
An Ensemble Embedding Approach for Improving Semantic Caching Performance in LLM-based Systems [4.364576564103288]
本稿では,複数の埋め込みモデルを訓練されたメタエンコーダを通じて組み合わせ,意味的類似性の検出を改善するアンサンブル埋め込み手法を提案する。提案手法をQuora Question Pairsデータセットを用いて評価し,キャッシュヒット率,キャッシュミス率,トークンセーブ,応答時間を測定した。
論文参考訳（メタデータ） (2025-07-08T09:20:12Z)
Towards Multi-Granularity Memory Association and Selection for Long-Term Conversational Agents [73.77930932005354]
我々は,多粒度アソシエーション,適応選択,検索を構築することで,メモリ統合を向上するフレームワークであるMemGASを提案する。 MemGASは多粒度メモリユニットに基づいており、ガウス混合モデルを用いて新しい記憶と過去の記憶をクラスタリングし関連付けている。 4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2025-05-26T06:13:07Z)
A Generative Caching System for Large Language Models [1.2132389187658934]
キャッシングは、大きな言語モデル(LLM)にアクセスする上で、大きなメリットをもたらす可能性がある。本稿では,LLMを用いたユーザエクスペリエンス向上のための新しいキャッシングシステムを提案する。生成キャッシングでは、複数のキャッシュされたレスポンスを合成して、これまで見たことのないクエリに対する回答を提供することができます。
論文参考訳（メタデータ） (2025-03-22T01:17:56Z)
vCache: Verified Semantic Prompt Caching [75.87215136638828]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文参考訳（メタデータ） (2025-02-06T04:16:20Z)
EPIC: Efficient Position-Independent Caching for Serving Large Language Models [19.510078997414606]
キャッシングは、リクエスト間でキーバリューベクトルを再利用することで、パフォーマンスを向上させる。既存のコンテキストキャッシュでは、リクエストにまたがる正確なプレフィックスが必要である。位置独立キャッシング (PIC) を導入し, プレフィックスによらず KV ベクトルのモジュラー再利用を可能にする。また、新しいLegoLinkアルゴリズムを取り入れたサービスシステムEPICも導入しています。
論文参考訳（メタデータ） (2024-10-20T08:42:29Z)
Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。命令符号化では,キャッシュの重要性を評価するために周波数を利用する。様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文参考訳（メタデータ） (2024-07-25T15:29:05Z)
Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文参考訳（メタデータ） (2024-06-24T03:59:17Z)
SCALM: Towards Semantic Caching for Automated Chat Services with Large Language Models [15.742472622602557]
セマンティック分析を重視し,重要なキャッシュエントリやパターンを識別する新しいキャッシュアーキテクチャであるSCALMを提案する。評価の結果,SCALMはキャッシュヒット率を増大させ,LLMChatサービスの運用コストを低減させることがわかった。
論文参考訳（メタデータ） (2024-05-24T08:16:22Z)
MeanCache: User-Centric Semantic Caching for LLM Web Services [8.350378532274405]
キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。本稿では,LLMベースのサービスのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。 MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
論文参考訳（メタデータ） (2024-03-05T06:23:50Z)
Effective and Efficient Conversation Retrieval for Dialogue State Tracking with Implicit Text Summaries [48.243879779374836]
LLM (Large Language Models) を用いたDST (Few-shot dialogue state tracking) では,会話検索を効果的かつ効率的に行うことで,学習の迅速化を図っている。従来は検索キーやクエリとして生の対話コンテキストを使用していた。会話のテキスト要約に基づいて会話検索を行う。 LLMに基づく会話要約器がクエリとキー生成に採用され、効果的な内部製品探索が可能となる。
論文参考訳（メタデータ） (2024-02-20T14:31:17Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。