論文の概要: Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems
- arxiv url: http://arxiv.org/abs/2605.04018v1
- Date: Tue, 05 May 2026 17:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:44.067652
- Title: Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems
- Title(参考訳): 推論集約検索の再考:エージェント検索システムにおけるレトリバーの評価と改善
- Authors: Yilun Zhao, Jinbiao Wei, Tingyu Song, Siyue Zhang, Chen Zhao, Arman Cohan,
- Abstract要約: 推論集約的な検索は、単にトピックの類似性に一致するのではなく、下流の推論を支持する証拠を明らかにすることを目的としている。
BRIGHT-Proは、専門家による注釈付きベンチマークで、各クエリを複数アスペクトのゴールドエビデンスで拡張する。
また,相補的な正と正条件の強陰性を生成するアスペクト分解型合成コーパスであるRTriever-Synthを構築した。
- 参考スコア(独自算出の注目度): 55.04168927059962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning-intensive retrieval aims to surface evidence that supports downstream reasoning rather than merely matching topical similarity. This capability is increasingly important for agentic search systems, where retrievers must provide complementary evidence across iterative search and synthesis. However, existing work remains limited on both evaluation and training: benchmarks such as BRIGHT provide narrow gold sets and evaluate retrievers in isolation, while synthetic training corpora often optimize single-passage relevance rather than evidence portfolio construction. We introduce BRIGHT-Pro, an expert-annotated benchmark that expands each query with multi-aspect gold evidence and evaluates retrievers under both static and agentic search protocols. We further construct RTriever-Synth, an aspect-decomposed synthetic corpus that generates complementary positives and positive-conditioned hard negatives, and use it to LoRA fine-tune RTriever-4B from Qwen3-Embedding-4B. Experiments across lexical, general-purpose, and reasoning-intensive retrievers show that aspect-aware and agentic evaluation expose behaviors hidden by standard metrics, while RTriever-4B substantially improves over its base model.
- Abstract(参考訳): 推論集約的な検索は、単にトピックの類似性に一致するのではなく、下流の推論を支持する証拠を明らかにすることを目的としている。
この能力はエージェント検索システムにおいてますます重要になってきており、検索者は反復探索と合成にまたがって補完的な証拠を提供する必要がある。
しかし、既存の作業は評価とトレーニングの両方に限られており、BRIGHTのようなベンチマークは狭い金のセットを提供し、レトリバーを単独で評価する。
BRIGHT-Proは,各クエリを複数アスペクトのゴールドエビデンスで拡張し,静的検索プロトコルとエージェント検索プロトコルの両方で検索者を評価する。
さらに,Qwen3-Embedding-4BのLoRAファインチューンRTriever-4Bに相補的な正と正条件のハード負を生成するアスペクト分解型合成コーパスであるRTriever-Synthを構築した。
語彙的,汎用的,推論集約的な検索実験により,アスペクト認識,エージェント的評価が標準メトリクスによって隠された振る舞いを明らかにする一方で,RTriever-4Bはベースモデルを大幅に改善することが示された。
関連論文リスト
- CoSearch: Joint Training of Reasoning and Document Ranking via Reinforcement Learning for Agentic Search [51.911048955965136]
CoSearchは多段階推論エージェントと生成ドキュメントランキングモデルを共同でトレーニングするフレームワークである。
この結果から, 推論エージェントと検索システムの協調訓練は, 実現可能であり, 性能も高いことが示唆された。
論文 参考訳(メタデータ) (2026-04-19T17:48:17Z) - AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。
Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。
DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。
AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文 参考訳(メタデータ) (2026-03-04T18:47:26Z) - Revisiting RAG Retrievers: An Information Theoretic Benchmark [10.168016086591452]
MIGRASCOPEは相互情報に基づくRAGレトリバー分析スコープである。
我々は、最先端のレトリバーを再検討し、情報と統計的推定理論に基づく原則付きメトリクスを導入する。
慎重に選択すれば、レトリバーのアンサンブルは、どのレトリバーよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-02-25T04:19:06Z) - SIGHT: Reinforcement Learning with Self-Evidence and Information-Gain Diverse Branching for Search Agent [39.43590030917357]
SIGHTは、セルフエビデンスサポートと情報ゲイン駆動のディバースブランチを通じて、検索ベースの推論を強化するフレームワークである。
SIGHTは、検索結果をSESを介して高忠実性証拠に蒸留し、インフォメーションゲインスコアを算出して、重要な状態を特定する。
シングルホップとマルチホップのQAベンチマークの実験では、SIGHTが既存のアプローチを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2026-02-12T04:16:55Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - FAIR-RAG: Faithful Adaptive Iterative Refinement for Retrieval-Augmented Generation [0.0]
本稿では、標準的なRAGパイプラインを動的にエビデンス駆動の推論プロセスに変換する新しいエージェントフレームワークであるFAIR-RAGを紹介する。
本稿では,HotpotQA,2WikiMultiHopQA,MusiQueなどのマルチホップQAベンチマーク実験を行う。
我々の研究は、高度なRAGシステムにおける信頼性と正確な推論を解き明かすためには、明確なギャップ分析による構造化されたエビデンス駆動の洗練プロセスが不可欠であることを示す。
論文 参考訳(メタデータ) (2025-10-25T15:59:33Z) - DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval [36.38599923075882]
DIVERは、推論集約的な情報検索のために設計された検索パイプラインである。
ドキュメント前処理ステージ、クエリ拡張ステージ、検索ステージ、再ランクステージの4つのコンポーネントで構成されている。
BRIGHTベンチマークでは、DIVERは最先端のnDCG@10スコアを45.8点、オリジナルクエリでは28.9点と達成し、競争力のある推論モデルを上回っている。
論文 参考訳(メタデータ) (2025-08-11T13:57:49Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。