論文の概要: Test-Time Strategies for More Efficient and Accurate Agentic RAG
- arxiv url: http://arxiv.org/abs/2603.12396v1
- Date: Thu, 12 Mar 2026 19:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.73791
- Title: Test-Time Strategies for More Efficient and Accurate Agentic RAG
- Title(参考訳): より効率的かつ高精度なエージェントRAGのためのテスト時間戦略
- Authors: Brian Zhang, Deepti Guntur, Zhiyang Zuo, Abhinav Sharma, Shreyas Chaudhari, Wenlong Zhao, Franck Dernoncourt, Puneet Mathur, Ryan Rossi, Nedim Lipka,
- Abstract要約: Retrieval-Augmented Generation (RAG) システムは複雑なマルチホップ問題に直面している。
このような手法は、以前に処理された情報の反復的な検索を含む非効率性を導入することができる。
本稿では,これらの問題を軽減するために,サーチ-R1パイプラインに対するテスト時間修正について検討する。
- 参考スコア(独自算出の注目度): 58.44913384057518
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems face challenges with complex, multihop questions, and agentic frameworks such as Search-R1 (Jin et al., 2025), which operates iteratively, have been proposed to address these complexities. However, such approaches can introduce inefficiencies, including repetitive retrieval of previously processed information and challenges in contextualizing retrieved results effectively within the current generation prompt. Such issues can lead to unnecessary retrieval turns, suboptimal reasoning, inaccurate answers, and increased token consumption. In this paper, we investigate test-time modifications to the Search-R1 pipeline to mitigate these identified shortcomings. Specifically, we explore the integration of two components and their combination: a contextualization module to better integrate relevant information from retrieved documents into reasoning, and a de-duplication module that replaces previously retrieved documents with the next most relevant ones. We evaluate our approaches using the HotpotQA (Yang et al., 2018) and the Natural Questions (Kwiatkowski et al., 2019) datasets, reporting the exact match (EM) score, an LLM-as-a-Judge assessment of answer correctness, and the average number of turns. Our best-performing variant, utilizing GPT-4.1-mini for contextualization, achieves a 5.6% increase in EM score and reduces the number of turns by 10.5% compared to the Search-R1 baseline, demonstrating improved answer accuracy and retrieval efficiency.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、複雑でマルチホップな質問や、反復的に動作する Search-R1 (Jin et al , 2025) のようなエージェント的なフレームワークで、これらの複雑さに対処するために提案されている。
しかし、このような手法では、前処理した情報の繰り返し検索や、検索した結果を現在の生成プロンプト内で効果的にコンテキスト化する際の課題など、非効率性を導入することができる。
このような問題は、不要な検索のターン、最適でない推論、不正確な回答、トークン消費の増加につながる可能性がある。
本稿では,これらの欠点を緩和するために,サーチ-R1パイプラインに対するテスト時間修正について検討する。
具体的には、検索した文書から推論に関連情報をよりよく統合するコンテキスト化モジュールと、検索した文書を最も関連性の高い文書に置き換える非重複モジュールである。
The HotpotQA (Yang et al , 2018) and the Natural Questions (Kwiatkowski et al , 2019) datasets (Kwiatkowski et al , 2019) datas, reported the exact Match (EM) score, a LLM-as-a-Judge Assessment of answer correctness and the average number of turn。
GPT-4.1-miniを文脈化に利用し,EMスコアが5.6%増加し,検索-R1ベースラインに比べてターン数が10.5%減少し,回答精度と検索効率が向上した。
関連論文リスト
- Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage [89.58253972744531]
Retrieval-augmented Generation (RAG) システムは、文書検索と生成モデルを組み合わせて、レポート生成のような複雑な情報を求める課題に対処する。
我々は,上流の検索指標が,最終生成応答の情報カバレッジの信頼性の高い早期指標として機能するかどうかを検討する。
本研究は,トピックとシステムレベルの両方で生成した応答におけるカバレッジベース検索指標とナゲットカバレッジとの間に強い相関関係を示した。
論文 参考訳(メタデータ) (2026-03-09T18:20:20Z) - PAIRS: Parametric-Verified Adaptive Information Retrieval and Selection for Efficient RAG [14.631028226704883]
我々はPAIRS(Parametric-verified Adaptive Information Retrieval and Selection)を紹介する。
PAIRSはパラメトリックと検索された知識を統合して、検索するかどうか、外部情報を選択すべきかを適応的に決定する。
PAIRSは検索コストを約25%削減し(クエリの75%しか処理しない)、精度を+1.1% EMと+1.0% F1に改善した。
論文 参考訳(メタデータ) (2025-08-06T03:33:01Z) - FrugalRAG: Learning to retrieve and reason for multi-hop QA [10.193015391271535]
RAGメトリクスを改善するために大規模な微調整は必要ない。
監督されたRLベースの微調整は、粗悪さの観点からRAGに役立つ。
論文 参考訳(メタデータ) (2025-07-10T11:02:13Z) - Question Decomposition for Retrieval-Augmented Generation [2.6409776648054764]
本稿では疑問分解をサブクエストに組み込んだRAGパイプラインを提案する。
補間的な文書を効果的に組み立てる一方で、再ランク付けによってノイズが減少することを示す。
再ランク自体は標準的なものであるが、LLMによる質問分解と既製のクロスエンコーダのペアリングは、マルチホップ質問の検索ギャップを橋渡しすることを示す。
論文 参考訳(メタデータ) (2025-07-01T01:01:54Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Mixed-initiative Query Rewriting in Conversational Passage Retrieval [11.644235288057123]
TREC Conversational Assistance Track (CAsT) 2022の手法と実験について報告する。
本稿では,ユーザとシステム間の混在開始応答に基づいてクエリ書き換えを行う複合開始型クエリ書き換えモジュールを提案する。
TREC CAsT 2021 と TREC CAsT 2022 の2つのデータセットを用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-07-17T19:38:40Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。