論文の概要: RAG without Forgetting: Continual Query-Infused Key Memory
- arxiv url: http://arxiv.org/abs/2602.05152v1
- Date: Thu, 05 Feb 2026 00:12:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.679685
- Title: RAG without Forgetting: Continual Query-Infused Key Memory
- Title(参考訳): RAG without Forgetting:Continuous Query-Infused Key Memory
- Authors: Yuntong Hu, Sha Li, Naren Ramakrishnan, Liang Zhao,
- Abstract要約: Evolving Retrieval Memory (ERM) は、過渡的なクエリ時間ゲインを永続的な検索改善に変換する、トレーニング不要のフレームワークである。
ERMは、正しさに制限されたフィードバックを通じて検索インデックスを更新し、アトミック拡張信号を選択的にそれらが有益であるドキュメントキーに属性付け、安定でノルムバウンドな更新を通じてキーを段階的に進化させる。
我々は,クエリとキー拡張が理論的に標準的な類似関数の下で等価であることを示し,ERMの選択的更新の収束を証明し,最適なクエリ拡張を推論時間オーバーヘッドゼロの安定インデックスに補正することを示した。
- 参考スコア(独自算出の注目度): 27.597076561986594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG) systems commonly improve robustness via query-time adaptations such as query expansion and iterative retrieval. While effective, these approaches are inherently stateless: adaptations are recomputed for each query and discarded thereafter, precluding cumulative learning and repeatedly incurring inference-time cost. Index-side approaches like key expansion introduce persistence but rely on offline preprocessing or heuristic updates that are weakly aligned with downstream task utility, leading to semantic drift and noise accumulation. We propose Evolving Retrieval Memory (ERM), a training-free framework that transforms transient query-time gains into persistent retrieval improvements. ERM updates the retrieval index through correctness-gated feedback, selectively attributes atomic expansion signals to the document keys they benefit, and progressively evolves keys via stable, norm-bounded updates. We show that query and key expansion are theoretically equivalent under standard similarity functions and prove convergence of ERM's selective updates, amortizing optimal query expansion into a stable index with zero inference-time overhead. Experiments on BEIR and BRIGHT across 13 domains demonstrate consistent gains in retrieval and generation, particularly on reasoning-intensive tasks, at native retrieval speed.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) システムは、クエリ拡張や反復検索などのクエリ時間適応を通じて、ロバスト性を改善するのが一般的である。
適応はクエリ毎に再計算され、その後破棄され、累積学習を廃止し、繰り返し推論時間コストが発生する。
キー拡張のようなインデックスサイドのアプローチは永続性を導入するが、オフラインの前処理やヒューリスティックな更新に依存し、下流のタスクユーティリティと弱い整合性を持ち、セマンティックなドリフトとノイズの蓄積につながる。
Evolving Retrieval Memory (ERM) は、過渡的なクエリ時間ゲインを永続的な検索改善に変換する、トレーニング不要のフレームワークである。
ERMは、正しさに制限されたフィードバックを通じて検索インデックスを更新し、アトミック拡張信号を選択的にそれらが有するドキュメントキーに属性付け、安定的でノルムバウンドな更新を通じてキーを段階的に進化させる。
我々は,クエリとキー拡張が理論的に標準的な類似関数の下で等価であることを示し,ERMの選択的更新の収束を証明し,最適なクエリ拡張を推論時間オーバーヘッドゼロの安定インデックスに補正することを示した。
13領域にわたるBEIRとBRIGHTの実験は、検索と生成において、特に推論集約的なタスクにおいて、ネイティブ検索速度で一貫した増加を示す。
関連論文リスト
- Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - Modeling Uncertainty Trends for Timely Retrieval in Dynamic RAG [35.96258615258145]
本稿では,トークンレベルの不確実性のダイナミクスをモデル化し,最適検索タイミングを決定するトレーニングフリーな手法であるEntropy-Trend Constraint(ETC)を紹介する。
ETCは、検索周波数を減少させながら、強いベースラインを一貫して上回る。
プラグアンドプレイで、モデルに依存しず、既存のデコードパイプラインに簡単に統合できる。
論文 参考訳(メタデータ) (2025-11-13T05:28:02Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - Enhancing Retrieval-Augmented Generation with Two-Stage Retrieval: FlashRank Reranking and Query Expansion [0.0]
RAGは、大きな言語モデル(LLM)とレトリバーを結合して、外部のエビデンスで生成された応答を接地する。
LLM駆動型クエリ拡張を統合して候補リコールを改善する2段階検索パイプラインを提案する。
FlashRankは、トークン予算の下で最適な証拠のサブセットを動的に選択する高速な限界効用リランカである。
論文 参考訳(メタデータ) (2025-10-17T15:08:17Z) - Accelerating LLM Inference with Precomputed Query Storage [0.13048920509133805]
StorInferはストレージ支援型大規模言語モデル(LLM)推論システムである。
ユーザが事前に計算したクエリにセマンティックにマッチすると、StorInferは高価なGPU推論をバイパスし、保存されたレスポンスを即座に返す。
論文 参考訳(メタデータ) (2025-09-30T08:14:04Z) - Leveraging Approximate Caching for Faster Retrieval-Augmented Generation [6.674782158041247]
本稿では,ユーザクエリの類似性を活用してRAGワークフローを最適化する,近似キー値キャッシュであるProximityを紹介する。
Proximityは、それぞれのクエリを独立して扱う代わりに、類似したクエリが現れると、以前検索されたドキュメントを再利用する。
我々の実験では、LSH方式と現実的にスキューされたMedRAGのワークロードとの近さは、データベースのリコールとテストの精度を維持しながら、データベース呼び出しを77.2%削減することを示した。
論文 参考訳(メタデータ) (2025-03-07T15:54:04Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。
クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。
GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-09-17T23:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。