論文の概要: Predictive Prefetching for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2605.17989v1
- Date: Mon, 18 May 2026 07:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.003607
- Title: Predictive Prefetching for Retrieval-Augmented Generation
- Title(参考訳): 検索強化ジェネレーションの予測前処理
- Authors: Wuyang Zhang, Shichao Pei,
- Abstract要約: 本稿では,進化する情報ニーズに整合したプレフェッチを可能にする,高度な非同期検索フレームワークを提案する。
複数のベンチマークの実験では、最大43.5%のエンドツーエンドのレイテンシ削減と62.4%の改善が示されている。
- 参考スコア(独自算出の注目度): 12.088272012448328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) improves factual grounding in large language models but suffers from substantial latency due to synchronous retrieval. While recent work explores asynchronous retrieval, existing approaches rely on heuristic coordination between retrieval and generation and assume stable information demands during decoding that often break in complex, multi-domain settings. In this paper, we propose an advanced asynchronous retrieval framework that enables predictive prefetching aligned with evolving information needs. The framework explicitly predicts when retrieval should be triggered and what information should be retrieved using three components, a retrieval predictor, a context monitor, and a query generator, by exploiting semantic precursors in generation dynamics that emerge several tokens before uncertainty becomes critical. Experiments on multiple benchmarks demonstrate up to 43.5% end-to-end latency reduction and 62.4% improvement in time-to-first-token, while maintaining answer quality comparable to synchronous RAG baselines.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模な言語モデルの現実的な基盤を改善するが、同期検索によってかなりのレイテンシに悩まされる。
最近の研究では、非同期検索について検討しているが、既存のアプローチは、検索と生成の間のヒューリスティックな調整に依存し、複雑なマルチドメイン設定でしばしば壊れるデコード時に安定した情報要求を前提としている。
本稿では,進化する情報ニーズに合わせた予測的事前フェッチを可能にする,高度な非同期検索フレームワークを提案する。
このフレームワークは、不確実性が重要になる前にいくつかのトークンを発生させるジェネレーションダイナミクスにおいて、セマンティック前駆体を利用することにより、いつ検索を起動すべきか、どの情報を3つのコンポーネント、検索予測器、コンテキストモニタ、クエリジェネレータを使って検索すべきかを明示的に予測する。
複数のベンチマークの実験では、最大43.5%のエンドツーエンドのレイテンシ削減と62.4%のタイム・ツー・ファースト・トークンの改善を実現し、同期RAGベースラインに匹敵する回答品質を維持した。
関連論文リスト
- FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation [73.22935457705057]
時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。
レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。
我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-04-14T17:04:25Z) - Transforming External Knowledge into Triplets for Enhanced Retrieval in RAG of LLMs [55.78708003681562]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を、生成時に外部知識を取り入れることで緩和する。
既存のRAGアプローチは通常、コンテキストとしてテキストフラグメントを検索し、非構造化する。
本稿では,三重項に基づく検索フレームワークTri-RAGを提案する。
論文 参考訳(メタデータ) (2026-04-14T11:36:29Z) - RAG without Forgetting: Continual Query-Infused Key Memory [27.597076561986594]
Evolving Retrieval Memory (ERM) は、過渡的なクエリ時間ゲインを永続的な検索改善に変換する、トレーニング不要のフレームワークである。
ERMは、正しさに制限されたフィードバックを通じて検索インデックスを更新し、アトミック拡張信号を選択的にそれらが有益であるドキュメントキーに属性付け、安定でノルムバウンドな更新を通じてキーを段階的に進化させる。
我々は,クエリとキー拡張が理論的に標準的な類似関数の下で等価であることを示し,ERMの選択的更新の収束を証明し,最適なクエリ拡張を推論時間オーバーヘッドゼロの安定インデックスに補正することを示した。
論文 参考訳(メタデータ) (2026-02-05T00:12:45Z) - Re3: Learning to Balance Relevance & Recency for Temporal Information Retrieval [10.939002113975706]
時間情報検索は、現代の検索システムにとって重要な課題であるが未解決の課題である。
Re3は、クエリ対応ゲーティングメカニズムを通じて意味情報と時間情報のバランスをとるフレームワークである。
Re2Benchでは、Re3は最先端の結果を達成し、3つのサブセットすべてにR@1をもたらす。
論文 参考訳(メタデータ) (2025-09-01T09:44:01Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Bootstrapped Pre-training with Dynamic Identifier Prediction for Generative Retrieval [108.9772640854136]
生成検索は、クエリに応答して関連するドキュメント識別子を直接生成するために、識別可能な検索インデックスを使用する。
近年の研究では、微調整による下流検索タスクを強化するために、慎重に訓練された事前学習タスクで訓練された強力な生成検索モデルの可能性を強調している。
生成検索のためのブートストラップ付き事前学習手法であるBootRetを導入し,事前学習中に文書識別子を動的に調整し,コーパスの継続に対応する。
論文 参考訳(メタデータ) (2024-07-16T08:42:36Z) - Retrieving Continuous Time Event Sequences using Neural Temporal Point
Processes with Learnable Hashing [24.963828650935913]
エンド・ツー・エンドのCTES検索に特化して設計された一級フレームワークであるNeuroSeqRetを提案する。
我々は,精度と効率のトレードオフに基づいて,異なる種類のアプリケーションに対する妥当性モデルの4つの変種を開発する。
実験の結果,NeuroSeqRetの精度は向上し,ハッシュ機構の有効性も示された。
論文 参考訳(メタデータ) (2023-07-13T18:54:50Z) - Improving Out-of-Distribution Generalization of Neural Rerankers with
Contextualized Late Interaction [52.63663547523033]
マルチベクトルの最も単純な形式である後期相互作用は、[]ベクトルのみを使用して類似度スコアを計算する神経リランカにも役立ちます。
異なるモデルサイズと多様な性質の第一段階のレトリバーに一貫性があることが示される。
論文 参考訳(メタデータ) (2023-02-13T18:42:17Z) - Improving Sequential Recommendations via Bidirectional Temporal Data Augmentation with Pre-training [46.5064172656298]
プレトレーニングによる双方向時間データ拡張(BARec)について紹介する。
提案手法は, 双方向の時間的拡張と知識強化による微調整を活用して, 真正な擬似優先順位項目を合成する。
5つのベンチマークデータセットに関する包括的実験分析により、短いシーケンスと長いシーケンスコンテキストの両方において、BARecの優位性が確認された。
論文 参考訳(メタデータ) (2021-12-13T07:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。