論文の概要: DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval
- arxiv url: http://arxiv.org/abs/2508.07995v1
- Date: Mon, 11 Aug 2025 13:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.129142
- Title: DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval
- Title(参考訳): DIVER: 推論集約型情報検索のためのマルチステージアプローチ
- Authors: Meixiu Long, Duolin Sun, Dan Yang, Junjie Wang, Yue Shen, Jian Wang, Peng Wei, Jinjie Gu, Jiahai Wang,
- Abstract要約: 推論集約型情報検索に適した検索パイプラインである textbfDIVER を提案する。
BRIGHTベンチマークでは、DIVERは元のクエリで最先端のnDCG@10スコアの41.6と28.9を達成している。
コードと検索モデルはまもなくリリースされます。
- 参考スコア(独自算出の注目度): 26.374811264047537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation has achieved strong performance on knowledge-intensive tasks where query-document relevance can be identified through direct lexical or semantic matches. However, many real-world queries involve abstract reasoning, analogical thinking, or multi-step inference, which existing retrievers often struggle to capture. To address this challenge, we present \textbf{DIVER}, a retrieval pipeline tailored for reasoning-intensive information retrieval. DIVER consists of four components: document processing to improve input quality, LLM-driven query expansion via iterative document interaction, a reasoning-enhanced retriever fine-tuned on synthetic multi-domain data with hard negatives, and a pointwise reranker that combines LLM-assigned helpfulness scores with retrieval scores. On the BRIGHT benchmark, DIVER achieves state-of-the-art nDCG@10 scores of 41.6 and 28.9 on original queries, consistently outperforming competitive reasoning-aware models. These results demonstrate the effectiveness of reasoning-aware retrieval strategies in complex real-world tasks. Our code and retrieval model will be released soon.
- Abstract(参考訳): Retrieval-augmented Generationは、クエリドキュメントの関連性を直接の語彙やセマンティックマッチングによって識別できる知識集約タスクにおいて、強力なパフォーマンスを実現している。
しかし、多くの現実世界のクエリには抽象的推論、アナログ的思考、多段階推論が含まれており、既存のレトリバーがしばしば捕えるのに苦労している。
この課題に対処するために、推論集約的な情報検索に適した検索パイプラインである \textbf{DIVER} を提示する。
DIVERは,入力品質向上のための文書処理,反復的文書間相互作用によるLLM駆動クエリ拡張,高負の合成多ドメインデータに微調整された推論型検索器,LLM指定の有用なスコアと検索スコアを組み合わせたポイントワイズ・リランカの4つのコンポーネントから構成される。
BRIGHTベンチマークでは、DIVERは元のクエリで最先端のnDCG@10スコアの41.6と28.9を達成し、競争力のある推論モデルよりも一貫して優れている。
これらの結果は、複雑な実世界のタスクにおける推論対応検索戦略の有効性を示す。
コードと検索モデルはまもなくリリースされます。
関連論文リスト
- Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。