論文の概要: When Iterative RAG Beats Ideal Evidence: A Diagnostic Study in Scientific Multi-hop Question Answering
- arxiv url: http://arxiv.org/abs/2601.19827v2
- Date: Thu, 05 Feb 2026 15:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.787629
- Title: When Iterative RAG Beats Ideal Evidence: A Diagnostic Study in Scientific Multi-hop Question Answering
- Title(参考訳): 反復RAGが理想的なエビデンスに勝つ時--科学的マルチホップ質問回答における診断的研究
- Authors: Mahdi Astaraki, Mohammad Arshi Saloot, Ali Shiraee Kasmaee, Hamidreza Mahyar, Soheila Samiee,
- Abstract要約: 我々は,同期反復検索と推論が,理想化された静的上界(Gold Context)RAGを超えることができるかどうかを考察した。
我々は,<i>No Context</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>Iterative RAG</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>Gold Context</i>,<i>I。
モデル全体では、Iterative RAGはゴールドコンテキストを一貫して上回り、特に非推論では最大25.6ポイントまで上昇する。
- 参考スコア(独自算出の注目度): 0.2796197251957245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) extends large language models (LLMs) beyond parametric knowledge, yet it is unclear when iterative retrieval-reasoning loops meaningfully outperform static RAG, particularly in scientific domains with multi-hop reasoning, sparse domain knowledge, and heterogeneous evidence. We provide the first controlled, mechanism-level diagnostic study of whether synchronized iterative retrieval and reasoning can surpass an idealized static upper bound (Gold Context) RAG. We benchmark eleven state-of-the-art LLMs under three regimes: (i) No Context, measuring reliance on parametric memory; (ii) Gold Context, where all oracle evidence is supplied at once; and (iii) Iterative RAG, a training-free controller that alternates retrieval, hypothesis refinement, and evidence-aware stopping. Using the chemistry-focused ChemKGMultiHopQA dataset, we isolate questions requiring genuine retrieval and analyze behavior with diagnostics spanning retrieval coverage gaps, anchor-carry drop, query quality, composition fidelity, and control calibration. Across models, Iterative RAG consistently outperforms Gold Context, with gains up to 25.6 percentage points, especially for non-reasoning fine-tuned models. Staged retrieval reduces late-hop failures, mitigates context overload, and enables dynamic correction of early hypothesis drift, but remaining failure modes include incomplete hop coverage, distractor latch trajectories, early stopping miscalibration, and high composition failure rates even with perfect retrieval. Overall, staged retrieval is often more influential than the mere presence of ideal evidence; we provide practical guidance for deploying and diagnosing RAG systems in specialized scientific settings and a foundation for more reliable, controllable iterative retrieval-reasoning frameworks.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、パラメトリック知識を超えて大きな言語モデル(LLM)を拡張しているが、特にマルチホップ推論、スパースドメイン知識、ヘテロジニアスエビデンスを持つ科学領域において、反復的な検索推論ループが静的RAGを有意に上回っているかどうかは不明である。
我々は,同期反復検索と推論が理想化された静的上界(Gold Context)RAGを超えることができるかどうかを,制御された最初のメカニズムレベルの診断研究を行う。
我々は、11の最先端LCMを3つの体制下でベンチマークする。
一 パラメトリックメモリへの依存度を測定する文脈がないこと。
二 すべての宣誓供述書が一度に供給されるゴールドコンテクスト
三 反復RAG(Iterative RAG)は、検索、仮説修正、エビデンス対応停止を交互に行う訓練不要の制御装置である。
化学に着目したChemKGMultiHopQAデータセットを用いて,検索カバレッジギャップ,アンカー・キャリー・ドロップ,クエリ品質,構成の忠実度,制御キャリブレーションなど,真の検索と分析を必要とする質問を分離する。
モデル全体では、Iterative RAGはゴールドコンテキストを一貫して上回り、特に細調整されていないモデルでは最大25.6ポイントまで上昇する。
段階的検索は遅延ホップの失敗を軽減し、コンテキストオーバーロードを緩和し、初期仮説のドリフトを動的に補正するが、残りの障害モードには不完全なホップのカバレッジ、不完全なラッチ軌跡、早期停止誤判定、完全検索でも高い構成不良率が含まれる。
全体として、段階的検索は、単なる理想的な証拠の存在よりも、しばしば影響を受けており、専門的な科学的環境でRAGシステムをデプロイし、診断するための実践的なガイダンスと、より信頼性が高く、制御可能な反復的検索推論フレームワークの基礎を提供する。
関連論文リスト
- MuISQA: Multi-Intent Retrieval-Augmented Generation for Scientific Question Answering [16.26521741515184]
Multi-Intent Scientific Question Answering (MuISQA) ベンチマークは、サブクエストにおける不均一なエビデンスカバレッジに基づくRAGシステムの評価を目的としている。
さらに,大規模言語モデル(LLM)を利用した意図認識検索フレームワークを提案する。
MuISQAベンチマークおよび他の一般RAGデータセットを用いた実験により,本手法は従来手法,特に検索精度および証拠カバレッジにおいて,常に優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-20T12:03:36Z) - FAIR-RAG: Faithful Adaptive Iterative Refinement for Retrieval-Augmented Generation [0.0]
本稿では、標準的なRAGパイプラインを動的にエビデンス駆動の推論プロセスに変換する新しいエージェントフレームワークであるFAIR-RAGを紹介する。
本稿では,HotpotQA,2WikiMultiHopQA,MusiQueなどのマルチホップQAベンチマーク実験を行う。
我々の研究は、高度なRAGシステムにおける信頼性と正確な推論を解き明かすためには、明確なギャップ分析による構造化されたエビデンス駆動の洗練プロセスが不可欠であることを示す。
論文 参考訳(メタデータ) (2025-10-25T15:59:33Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。