Fugu-MT 論文翻訳(概要): Leveraging Approximate Caching for Faster Retrieval-Augmented Generation

論文の概要: Leveraging Approximate Caching for Faster Retrieval-Augmented Generation

arxiv url: http://arxiv.org/abs/2503.05530v1
Date: Fri, 07 Mar 2025 15:54:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:15.044294
Title: Leveraging Approximate Caching for Faster Retrieval-Augmented Generation
Title（参考訳）: 高速検索向上のための近似キャッシングの活用
Authors: Shai Bergman, Zhang Ji, Anne-Marie Kermarrec, Diana Petrescu, Rafael Pires, Mathis Randl, Martijn de Vos,
Abstract要約: Retrieval-augmented Generation (RAG)は、外部知識を統合することにより、大規模言語モデル(LLM)回答の信頼性を高める。 RAGは、大規模なベクトルデータベースから関連ドキュメントを探すのに計算コストがかかるため、エンドツーエンドの推論時間を増加させる。本稿では,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを紹介する。
参考スコア（独自算出の注目度）: 1.3450852784287828
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-augmented generation (RAG) enhances the reliability of large language model (LLM) answers by integrating external knowledge. However, RAG increases the end-to-end inference time since looking for relevant documents from large vector databases is computationally expensive. To address this, we introduce Proximity, an approximate key-value cache that optimizes the RAG workflow by leveraging similarities in user queries. Instead of treating each query independently, Proximity reuses previously retrieved documents when similar queries appear, reducing reliance on expensive vector database lookups. We evaluate Proximity on the MMLU and MedRAG benchmarks, demonstrating that it significantly improves retrieval efficiency while maintaining response accuracy. Proximity reduces retrieval latency by up to 59% while maintaining accuracy and lowers the computational burden on the vector database. We also experiment with different similarity thresholds and quantify the trade-off between speed and recall. Our work shows that approximate caching is a viable and effective strategy for optimizing RAG-based systems.
Abstract（参考訳）: Retrieval-augmented Generation (RAG)は、外部知識を統合することにより、大規模言語モデル(LLM)回答の信頼性を高める。しかし,大規模ベクトルデータベースからの関連文書の検索は計算コストがかかるため,RAGはエンドツーエンドの推論時間を増加させる。この問題を解決するために,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを導入する。 Proximityは、それぞれのクエリを独立して扱う代わりに、類似したクエリが現れたときに検索したドキュメントを再利用することで、高価なベクトルデータベースのルックアップへの依存を減らす。 MMLU と MedRAG のベンチマークで近似性を評価し,応答精度を保ちながら検索効率を大幅に向上することを示した。 Proximityは、精度を維持しながら、検索遅延を最大59%削減し、ベクトルデータベースの計算負担を低減します。また、異なる類似度閾値を実験し、速度とリコールの間のトレードオフを定量化します。我々の研究は、RAGベースのシステムを最適化する上で、近似キャッシングが有効かつ効果的な戦略であることを示している。

関連論文リスト

AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。 AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文参考訳（メタデータ） (2026-01-28T08:09:49Z)
SwiftMem: Fast Agentic Memory via Query-aware Indexing [45.27116353623848]
我々は,時間的・意味的次元の特殊インデックス化によるサブ線形検索を実現する,クエリ対応のエージェントメモリシステムであるSwiftMemを提案する。 DAG-Tagインデックスは、階層的なタグ構造を通して、クエリを関連するトピックにマッピングする。 LoCoMoとLongMemEvalベンチマークの実験では、SwiftMemは最先端のベースラインに比べて47$times$高速検索を実現している。
論文参考訳（メタデータ） (2026-01-13T02:51:04Z)
TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文参考訳（メタデータ） (2025-11-07T16:08:34Z)
RAGBoost: Efficient Retrieval-Augmented Generation with Accuracy-Preserving Context Reuse [39.76548092849437]
Retrieval-augmented Generation (RAG)は、検索コンテキストで大きな言語モデル(LLM)を拡張する。既存のキャッシュ技術は、低いキャッシュ再利用で精度を維持するか、劣化した推論品質で再利用を改善するかのどちらかである。 RAGBoostは、精度保存コンテキストの再利用によって精度を犠牲にすることなく、高いキャッシュ再利用を実現する効率的なRAGシステムである。
論文参考訳（メタデータ） (2025-11-05T13:59:01Z)
MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning [73.27233666920618]
本稿では,メモリを反復的に保持し,現在のターンと組み合わせたエージェントワークフローであるMemSearcherを提案する。それぞれのターンで、MemSearcherはユーザーの質問をメモリに融合させ、推論トレースを生成し、検索アクションを実行し、メモリを更新してタスクの解決に必要な情報のみを保持する。我々は,MemSearcher Agents の推論,検索戦略,メモリ管理を協調的に最適化する,エンドツーエンドの RL フレームワークである Multi-context GRPO を紹介する。
論文参考訳（メタデータ） (2025-11-04T18:27:39Z)
Accelerating LLM Inference with Precomputed Query Storage [0.13048920509133805]
StorInferはストレージ支援型大規模言語モデル(LLM)推論システムである。ユーザが事前に計算したクエリにセマンティックにマッチすると、StorInferは高価なGPU推論をバイパスし、保存されたレスポンスを即座に返す。
論文参考訳（メタデータ） (2025-09-30T08:14:04Z)
Towards Multi-Granularity Memory Association and Selection for Long-Term Conversational Agents [73.77930932005354]
我々は,多粒度アソシエーション,適応選択,検索を構築することで,メモリ統合を向上するフレームワークであるMemGASを提案する。 MemGASは多粒度メモリユニットに基づいており、ガウス混合モデルを用いて新しい記憶と過去の記憶をクラスタリングし関連付けている。 4つの長期メモリベンチマークの実験により、MemGASは質問応答と検索タスクの両方において最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2025-05-26T06:13:07Z)
Optimizing Retrieval-Augmented Generation: Analysis of Hyperparameter Impact on Performance and Efficiency [1.6177972328875518]
大規模な言語モデルは高いタスク性能を達成するが、しばしば幻覚や時代遅れの知識に依存している。 Retrieval-augmented Generation (RAG) は、これらのギャップに外部探索と結合して対処する。
論文参考訳（メタデータ） (2025-05-13T11:13:27Z)
Efficient Federated Search for Retrieval-Augmented Generation [5.455019218544053]
大規模言語モデル(LLM)は、様々な領域で顕著な能力を示してきたが、幻覚や矛盾の影響を受けやすいままである。 Retrieval-augmented Generation (RAG) は、これらの問題を、外部の知識ソースに応答を基盤として緩和する。フェデレートされたRAG検索のための新しいメカニズムであるRAGRouteを紹介する。
論文参考訳（メタデータ） (2025-02-26T16:36:24Z)
Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:56:20Z)
Adaptive Semantic Prompt Caching with VectorQ [78.59891542553179]
ベクトル類似度メトリクスは、キャッシュ内の埋め込みプロンプトと最も近い隣人の類似度を定量化するために数値スコアを割り当てる。既存のシステムは、キャッシュヒットの原因となる類似度スコアが十分に高いかどうかを分類するために静的しきい値に依存している。この1つの大きさのしきい値が、異なる埋め込みで不十分であることを示す。埋め込み固有のしきい値領域を学習するためのしきい値収束を保証するオンラインフレームワークであるVectorQを提案する。
論文参考訳（メタデータ） (2025-02-06T04:16:20Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks [11.053340674721005]
検索拡張世代(RAG)は,外部知識ソースを統合することで言語モデルを強化する強力なアプローチとして注目されている。本稿では、リアルタイム検索をバイパスする代替パラダイムであるキャッシュ拡張生成(CAG)を提案する。
論文参考訳（メタデータ） (2024-12-20T06:58:32Z)
Toward Optimal Search and Retrieval for RAG [39.69494982983534]
Retrieval-augmented Generation (RAG)は、Large Language Models (LLM)に関連するメモリ関連の課題に対処するための有望な方法である。ここでは、質問回答(QA)などの共通タスクに対して、レトリバーをRAGパイプラインに最適化する方法を理解することを目的としている。
論文参考訳（メタデータ） (2024-11-11T22:06:51Z)
Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文参考訳（メタデータ） (2024-10-11T14:03:29Z)
Optimizing Query Generation for Enhanced Document Retrieval in RAG [53.10369742545479]
大規模言語モデル(LLM)は様々な言語タスクに優れるが、しばしば誤った情報を生成する。 Retrieval-Augmented Generation (RAG) は、正確な応答に文書検索を使用することによってこれを緩和することを目的としている。
論文参考訳（メタデータ） (2024-07-17T05:50:32Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation [11.321659218769598]
Retrieval-Augmented Generation (RAG)は、様々な自然言語処理タスクにおいて大幅に改善されている。 RAGCacheは、検索した知識の中間状態を知識ツリーに整理し、それらをGPUとホストメモリ階層にキャッシュする。 RAGCacheは、最初のトークン(TTTF)までの時間を最大4倍に削減し、スループットを最大2.1倍改善する。
論文参考訳（メタデータ） (2024-04-18T18:32:30Z)
Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。 CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文参考訳（メタデータ） (2024-01-29T04:36:39Z)
ReFIT: Relevance Feedback from a Reranker during Inference [109.33278799999582]
Retrieve-and-Rerankは、ニューラル情報検索の一般的なフレームワークである。本稿では,リランカを利用してリコールを改善する手法を提案する。
論文参考訳（メタデータ） (2023-05-19T15:30:33Z)
Accelerating Deep Learning Classification with Error-controlled Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文参考訳（メタデータ） (2021-12-13T13:49:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。