論文の概要: DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval
- arxiv url: http://arxiv.org/abs/2508.07995v3
- Date: Mon, 25 Aug 2025 16:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.831731
- Title: DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval
- Title(参考訳): DIVER: 推論集約型情報検索のためのマルチステージアプローチ
- Authors: Meixiu Long, Duolin Sun, Dan Yang, Junjie Wang, Yue Shen, Jian Wang, Peng Wei, Jinjie Gu, Jiahai Wang,
- Abstract要約: DIVERは、推論集約的な情報検索のために設計された検索パイプラインである。
ドキュメント前処理ステージ、クエリ拡張ステージ、検索ステージ、再ランクステージの4つのコンポーネントで構成されている。
BRIGHTベンチマークでは、DIVERは最先端のnDCG@10スコアを45.8点、オリジナルクエリでは28.9点と達成し、競争力のある推論モデルを上回っている。
- 参考スコア(独自算出の注目度): 36.38599923075882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation has achieved strong performance on knowledge-intensive tasks where query-document relevance can be identified through direct lexical or semantic matches. However, many real-world queries involve abstract reasoning, analogical thinking, or multi-step inference, which existing retrievers often struggle to capture. To address this challenge, we present DIVER, a retrieval pipeline designed for reasoning-intensive information retrieval. It consists of four components. The document preprocessing stage enhances readability and preserves content by cleaning noisy texts and segmenting long documents. The query expansion stage leverages large language models to iteratively refine user queries with explicit reasoning and evidence from retrieved documents. The retrieval stage employs a model fine-tuned on synthetic data spanning medical and mathematical domains, along with hard negatives, enabling effective handling of reasoning-intensive queries. Finally, the reranking stage combines pointwise and listwise strategies to produce both fine-grained and globally consistent rankings. On the BRIGHT benchmark, DIVER achieves state-of-the-art nDCG@10 scores of 45.8 overall and 28.9 on original queries, consistently outperforming competitive reasoning-aware models. These results demonstrate the effectiveness of reasoning-aware retrieval strategies in complex real-world tasks.
- Abstract(参考訳): Retrieval-augmented Generationは、クエリドキュメントの関連性を直接の語彙やセマンティックマッチングによって識別できる知識集約タスクにおいて、強力なパフォーマンスを実現している。
しかし、多くの現実世界のクエリには抽象的推論、アナログ的思考、多段階推論が含まれており、既存のレトリバーがしばしば捕えるのに苦労している。
この課題に対処するために、推論集約的な情報検索用に設計された検索パイプラインであるDIVERを提案する。
4つの構成要素から構成される。
文書前処理段階は可読性を高め、ノイズの多いテキストのクリーニングや長い文書のセグメンテーションによってコンテンツを保存する。
クエリ拡張ステージは、大きな言語モデルを利用して、抽出されたドキュメントから明示的な推論と証拠でユーザークエリを反復的に洗練する。
検索段階は、医学領域と数学領域にまたがる合成データに微調整されたモデルと、強い負のモデルを用い、推論集約的なクエリの効果的な処理を可能にする。
最後に、ランク付け段階はポイントワイズ戦略とリストワイズ戦略を組み合わせて、細かい粒度と一貫したランキングを生成する。
BRIGHTベンチマークでは、DIVERは最先端のnDCG@10スコアを45.8点、オリジナルクエリでは28.9点と達成し、競争力のある推論モデルを上回っている。
これらの結果は、複雑な実世界のタスクにおける推論対応検索戦略の有効性を示す。
関連論文リスト
- Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。