論文の概要: Leveraging Approximate Caching for Faster Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2503.05530v2
- Date: Tue, 02 Sep 2025 13:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 17:24:09.101115
- Title: Leveraging Approximate Caching for Faster Retrieval-Augmented Generation
- Title(参考訳): 高速検索向上のための近似キャッシングの活用
- Authors: Shai Bergman, Zhang Ji, Anne-Marie Kermarrec, Diana Petrescu, Rafael Pires, Mathis Randl, Martijn de Vos,
- Abstract要約: 本稿では,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを紹介する。
Proximityは、それぞれのクエリを独立して扱う代わりに、類似したクエリが現れると、以前検索されたドキュメントを再利用する。
我々の実験は、LSH方式と現実的にスキューされたMedRAGのワークロードとの近さにより、データベースのリコールとテスト精度を維持しながら、データベース呼び出しを78.9%削減することを示した。
- 参考スコア(独自算出の注目度): 3.0111172730438565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) improves the reliability of large language model (LLM) answers by integrating external knowledge. However, RAG increases the end-to-end inference time since looking for relevant documents from large vector databases is computationally expensive. To address this, we introduce Proximity, an approximate key-value cache that optimizes the RAG workflow by leveraging similarities in user queries. Instead of treating each query independently, Proximity reuses previously retrieved documents when similar queries appear, substantially reducing reliance on expensive vector database lookups. To scale efficiently, Proximity employs a locality-sensitive hashing (LSH) scheme that enables fast cache lookups while preserving retrieval accuracy. We evaluate Proximity using the MMLU and MedRAG question answering benchmarks. Our experiments demonstrate that Proximity with our LSH scheme and a realistically skewed MedRAG workload reduces database calls by 78.9% while maintaining database recall and test accuracy. We experiment with different similarity tolerances and cache capacities, and show that the time spent within the Proximity cache remains low and constant (4.8 microseconds) even as the cache grows substantially in size. Our work highlights that approximate caching is a viable and effective strategy for optimizing RAG-based systems.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)は、外部知識を統合することにより、大規模言語モデル(LLM)回答の信頼性を向上させる。
しかし,大規模ベクトルデータベースからの関連文書の検索は計算コストがかかるため,RAGはエンドツーエンドの推論時間を増加させる。
この問題を解決するために,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを導入する。
Proximityは、それぞれのクエリを独立して扱う代わりに、類似したクエリが現れたときに検索済みのドキュメントを再利用することで、高価なベクトルデータベースのルックアップへの依存を大幅に低減する。
Proximity はローカリティ・センシティブ・ハッシュ(LSH)方式を採用しており,検索精度を保ちながら高速なキャッシュ・ルックアップを実現する。
MMLUとMedRAGの質問応答ベンチマークを用いて確率を評価する。
我々の実験は、LSH方式と現実的にスキューされたMedRAGのワークロードとの近さにより、データベースのリコールとテスト精度を維持しながら、データベース呼び出しを78.9%削減することを示した。
我々は、異なる類似性トレランスとキャッシュ容量を実験し、キャッシュのサイズが大幅に増大しても、プロキシキャッシュ内で費やされる時間は低く、一定(4.8マイクロ秒)であることを示した。
我々の研究は、近似キャッシングがRAGベースのシステムを最適化するための実用的で効果的な戦略であることを強調している。
関連論文リスト
- Towards Multi-Granularity Memory Association and Selection for Long-Term Conversational Agents [73.77930932005354]
我々は,多粒度アソシエーション,適応選択,検索を構築することで,メモリ統合を向上するフレームワークであるMemGASを提案する。
MemGASは多粒度メモリユニットに基づいており、ガウス混合モデルを用いて新しい記憶と過去の記憶をクラスタリングし関連付けている。
4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-26T06:13:07Z) - Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency [1.6177972328875518]
大規模な言語モデルは高いタスク性能を達成するが、しばしば幻覚や時代遅れの知識に依存している。
Retrieval-augmented Generation (RAG) は、これらのギャップに外部探索と結合して対処する。
論文 参考訳(メタデータ) (2025-05-13T11:13:27Z) - Efficient Federated Search for Retrieval-Augmented Generation [5.455019218544053]
大規模言語モデル(LLM)は、様々な領域で顕著な能力を示してきたが、幻覚や矛盾の影響を受けやすいままである。
Retrieval-augmented Generation (RAG) は、これらの問題を、外部の知識ソースに応答を基盤として緩和する。
フェデレートされたRAG検索のための新しいメカニズムであるRAGRouteを紹介する。
論文 参考訳(メタデータ) (2025-02-26T16:36:24Z) - Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。
既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。
本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:56:20Z) - Adaptive Semantic Prompt Caching with VectorQ [78.59891542553179]
ベクトル類似度メトリクスは、キャッシュ内の埋め込みプロンプトと最も近い隣人の類似度を定量化するために数値スコアを割り当てる。
既存のシステムは、キャッシュヒットの原因となる類似度スコアが十分に高いかどうかを分類するために静的しきい値に依存している。
この1つの大きさのしきい値が、異なる埋め込みで不十分であることを示す。
埋め込み固有のしきい値領域を学習するためのしきい値収束を保証するオンラインフレームワークであるVectorQを提案する。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。
本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文 参考訳(メタデータ) (2024-12-20T06:58:32Z) - Toward Optimal Search and Retrieval for RAG [39.69494982983534]
Retrieval-augmented Generation (RAG)は、Large Language Models (LLM)に関連するメモリ関連の課題に対処するための有望な方法である。
ここでは、質問回答(QA)などの共通タスクに対して、レトリバーをRAGパイプラインに最適化する方法を理解することを目的としている。
論文 参考訳(メタデータ) (2024-11-11T22:06:51Z) - Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - Optimizing Query Generation for Enhanced Document Retrieval in RAG [53.10369742545479]
大規模言語モデル(LLM)は様々な言語タスクに優れるが、しばしば誤った情報を生成する。
Retrieval-Augmented Generation (RAG) は、正確な応答に文書検索を使用することによってこれを緩和することを目的としている。
論文 参考訳(メタデータ) (2024-07-17T05:50:32Z) - RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation [11.321659218769598]
Retrieval-Augmented Generation (RAG)は、様々な自然言語処理タスクにおいて大幅に改善されている。
RAGCacheは、検索した知識の中間状態を知識ツリーに整理し、それらをGPUとホストメモリ階層にキャッシュする。
RAGCacheは、最初のトークン(TTTF)までの時間を最大4倍に削減し、スループットを最大2.1倍改善する。
論文 参考訳(メタデータ) (2024-04-18T18:32:30Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - ReFIT: Relevance Feedback from a Reranker during Inference [109.33278799999582]
Retrieve-and-Rerankは、ニューラル情報検索の一般的なフレームワークである。
本稿では,リランカを利用してリコールを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:30:33Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。