論文の概要: Leveraging Approximate Caching for Faster Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2503.05530v2
- Date: Tue, 02 Sep 2025 13:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 17:24:09.101115
- Title: Leveraging Approximate Caching for Faster Retrieval-Augmented Generation
- Title(参考訳): 高速検索向上のための近似キャッシングの活用
- Authors: Shai Bergman, Zhang Ji, Anne-Marie Kermarrec, Diana Petrescu, Rafael Pires, Mathis Randl, Martijn de Vos,
- Abstract要約: 本稿では,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを紹介する。
Proximityは、それぞれのクエリを独立して扱う代わりに、類似したクエリが現れると、以前検索されたドキュメントを再利用する。
我々の実験は、LSH方式と現実的にスキューされたMedRAGのワークロードとの近さにより、データベースのリコールとテスト精度を維持しながら、データベース呼び出しを78.9%削減することを示した。
- 参考スコア(独自算出の注目度): 3.0111172730438565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) improves the reliability of large language model (LLM) answers by integrating external knowledge. However, RAG increases the end-to-end inference time since looking for relevant documents from large vector databases is computationally expensive. To address this, we introduce Proximity, an approximate key-value cache that optimizes the RAG workflow by leveraging similarities in user queries. Instead of treating each query independently, Proximity reuses previously retrieved documents when similar queries appear, substantially reducing reliance on expensive vector database lookups. To scale efficiently, Proximity employs a locality-sensitive hashing (LSH) scheme that enables fast cache lookups while preserving retrieval accuracy. We evaluate Proximity using the MMLU and MedRAG question answering benchmarks. Our experiments demonstrate that Proximity with our LSH scheme and a realistically skewed MedRAG workload reduces database calls by 78.9% while maintaining database recall and test accuracy. We experiment with different similarity tolerances and cache capacities, and show that the time spent within the Proximity cache remains low and constant (4.8 microseconds) even as the cache grows substantially in size. Our work highlights that approximate caching is a viable and effective strategy for optimizing RAG-based systems.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、外部知識を統合することにより、大規模言語モデル(LLM)回答の信頼性を向上させる。
しかし,大規模ベクトルデータベースからの関連文書の検索は計算コストがかかるため,RAGはエンドツーエンドの推論時間を増加させる。
この問題を解決するために,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを導入する。
Proximityは、それぞれのクエリを独立して扱う代わりに、類似したクエリが現れたときに検索済みのドキュメントを再利用することで、高価なベクトルデータベースのルックアップへの依存を大幅に低減する。
Proximity はローカリティ・センシティブ・ハッシュ(LSH)方式を採用しており,検索精度を保ちながら高速なキャッシュ・ルックアップを実現する。
MMLUとMedRAGの質問応答ベンチマークを用いて確率を評価する。
我々の実験は、LSH方式と現実的にスキューされたMedRAGのワークロードとの近さにより、データベースのリコールとテスト精度を維持しながら、データベース呼び出しを78.9%削減することを示した。
我々は、異なる類似性トレランスとキャッシュ容量を実験し、キャッシュのサイズが大幅に増大しても、プロキシキャッシュ内で費やされる時間は低く、一定(4.8マイクロ秒)であることを示した。
我々の研究は、近似キャッシングがRAGベースのシステムを最適化するための実用的で効果的な戦略であることを強調している。
関連論文リスト
- AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - SwiftMem: Fast Agentic Memory via Query-aware Indexing [45.27116353623848]
我々は,時間的・意味的次元の特殊インデックス化によるサブ線形検索を実現する,クエリ対応のエージェントメモリシステムであるSwiftMemを提案する。
DAG-Tagインデックスは、階層的なタグ構造を通して、クエリを関連するトピックにマッピングする。
LoCoMoとLongMemEvalベンチマークの実験では、SwiftMemは最先端のベースラインに比べて47$times$高速検索を実現している。
論文 参考訳(メタデータ) (2026-01-13T02:51:04Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - RAGBoost: Efficient Retrieval-Augmented Generation with Accuracy-Preserving Context Reuse [39.76548092849437]
Retrieval-augmented Generation (RAG)は、検索コンテキストで大きな言語モデル(LLM)を拡張する。
既存のキャッシュ技術は、低いキャッシュ再利用で精度を維持するか、劣化した推論品質で再利用を改善するかのどちらかである。
RAGBoostは、精度保存コンテキストの再利用によって精度を犠牲にすることなく、高いキャッシュ再利用を実現する効率的なRAGシステムである。
論文 参考訳(メタデータ) (2025-11-05T13:59:01Z) - MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。
それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。
我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:27:39Z) - Accelerating LLM Inference with Precomputed Query Storage [0.13048920509133805]
StorInferはストレージ支援型大規模言語モデル(LLM)推論システムである。
ユーザが事前に計算したクエリにセマンティックにマッチすると、StorInferは高価なGPU推論をバイパスし、保存されたレスポンスを即座に返す。
論文 参考訳(メタデータ) (2025-09-30T08:14:04Z) - Towards Multi-Granularity Memory Association and Selection for Long-Term Conversational Agents [73.77930932005354]
我々は,多粒度アソシエーション,適応選択,検索を構築することで,メモリ統合を向上するフレームワークであるMemGASを提案する。
MemGASは多粒度メモリユニットに基づいており、ガウス混合モデルを用いて新しい記憶と過去の記憶をクラスタリングし関連付けている。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency [1.6177972328875518]
大規模な言語モデルは高いタスク性能を達成するが、しばしば幻覚や時代遅れの知識に依存している。
Retrieval-augmented Generation (RAG) は、これらのギャップに外部探索と結合して対処する。
論文 参考訳(メタデータ) (2025-05-13T11:13:27Z) - Efficient Federated Search for Retrieval-Augmented Generation [5.455019218544053]
大規模言語モデル(LLM)は、様々な領域で顕著な能力を示してきたが、幻覚や矛盾の影響を受けやすいままである。
Retrieval-augmented Generation (RAG) は、これらの問題を、外部の知識ソースに応答を基盤として緩和する。
フェデレートされたRAG検索のための新しいメカニズムであるRAGRouteを紹介する。
論文 参考訳(メタデータ) (2025-02-26T16:36:24Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Adaptive Semantic Prompt Caching with VectorQ [78.59891542553179]
ベクトル類似度メトリクスは、キャッシュ内の埋め込みプロンプトと最も近い隣人の類似度を定量化するために数値スコアを割り当てる。
既存のシステムは、キャッシュヒットの原因となる類似度スコアが十分に高いかどうかを分類するために静的しきい値に依存している。
この1つの大きさのしきい値が、異なる埋め込みで不十分であることを示す。
埋め込み固有のしきい値領域を学習するためのしきい値収束を保証するオンラインフレームワークであるVectorQを提案する。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。
本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文 参考訳(メタデータ) (2024-12-20T06:58:32Z) - Toward Optimal Search and Retrieval for RAG [39.69494982983534]
Retrieval-augmented Generation (RAG)は、Large Language Models (LLM)に関連するメモリ関連の課題に対処するための有望な方法である。
ここでは、質問回答(QA)などの共通タスクに対して、レトリバーをRAGパイプラインに最適化する方法を理解することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T22:06:51Z) - Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - Optimizing Query Generation for Enhanced Document Retrieval in RAG [53.10369742545479]
大規模言語モデル(LLM)は様々な言語タスクに優れるが、しばしば誤った情報を生成する。
Retrieval-Augmented Generation (RAG) は、正確な応答に文書検索を使用することによってこれを緩和することを目的としている。
論文 参考訳(メタデータ) (2024-07-17T05:50:32Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation [11.321659218769598]
Retrieval-Augmented Generation (RAG)は、様々な自然言語処理タスクにおいて大幅に改善されている。
RAGCacheは、検索した知識の中間状態を知識ツリーに整理し、それらをGPUとホストメモリ階層にキャッシュする。
RAGCacheは、最初のトークン(TTTF)までの時間を最大4倍に削減し、スループットを最大2.1倍改善する。
論文 参考訳(メタデータ) (2024-04-18T18:32:30Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - ReFIT: Relevance Feedback from a Reranker during Inference [109.33278799999582]
Retrieve-and-Rerankは、ニューラル情報検索の一般的なフレームワークである。
本稿では,リランカを利用してリコールを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:30:33Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。