論文の概要: DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval
- arxiv url: http://arxiv.org/abs/2508.07995v3
- Date: Mon, 25 Aug 2025 16:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 14:31:50.831731
- Title: DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval
- Title(参考訳): DIVER: 推論集約型情報検索のためのマルチステージアプローチ
- Authors: Meixiu Long, Duolin Sun, Dan Yang, Junjie Wang, Yue Shen, Jian Wang, Peng Wei, Jinjie Gu, Jiahai Wang,
- Abstract要約: DIVERは、推論集約的な情報検索のために設計された検索パイプラインである。
ドキュメント前処理ステージ、クエリ拡張ステージ、検索ステージ、再ランクステージの4つのコンポーネントで構成されている。
BRIGHTベンチマークでは、DIVERは最先端のnDCG@10スコアを45.8点、オリジナルクエリでは28.9点と達成し、競争力のある推論モデルを上回っている。
- 参考スコア(独自算出の注目度): 36.38599923075882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation has achieved strong performance on knowledge-intensive tasks where query-document relevance can be identified through direct lexical or semantic matches. However, many real-world queries involve abstract reasoning, analogical thinking, or multi-step inference, which existing retrievers often struggle to capture. To address this challenge, we present DIVER, a retrieval pipeline designed for reasoning-intensive information retrieval. It consists of four components. The document preprocessing stage enhances readability and preserves content by cleaning noisy texts and segmenting long documents. The query expansion stage leverages large language models to iteratively refine user queries with explicit reasoning and evidence from retrieved documents. The retrieval stage employs a model fine-tuned on synthetic data spanning medical and mathematical domains, along with hard negatives, enabling effective handling of reasoning-intensive queries. Finally, the reranking stage combines pointwise and listwise strategies to produce both fine-grained and globally consistent rankings. On the BRIGHT benchmark, DIVER achieves state-of-the-art nDCG@10 scores of 45.8 overall and 28.9 on original queries, consistently outperforming competitive reasoning-aware models. These results demonstrate the effectiveness of reasoning-aware retrieval strategies in complex real-world tasks.
- Abstract(参考訳): Retrieval-augmented Generationは、クエリドキュメントの関連性を直接の語彙やセマンティックマッチングによって識別できる知識集約タスクにおいて、強力なパフォーマンスを実現している。
しかし、多くの現実世界のクエリには抽象的推論、アナログ的思考、多段階推論が含まれており、既存のレトリバーがしばしば捕えるのに苦労している。
この課題に対処するために、推論集約的な情報検索用に設計された検索パイプラインであるDIVERを提案する。
4つの構成要素から構成される。
文書前処理段階は可読性を高め、ノイズの多いテキストのクリーニングや長い文書のセグメンテーションによってコンテンツを保存する。
クエリ拡張ステージは、大きな言語モデルを利用して、抽出されたドキュメントから明示的な推論と証拠でユーザークエリを反復的に洗練する。
検索段階は、医学領域と数学領域にまたがる合成データに微調整されたモデルと、強い負のモデルを用い、推論集約的なクエリの効果的な処理を可能にする。
最後に、ランク付け段階はポイントワイズ戦略とリストワイズ戦略を組み合わせて、細かい粒度と一貫したランキングを生成する。
BRIGHTベンチマークでは、DIVERは最先端のnDCG@10スコアを45.8点、オリジナルクエリでは28.9点と達成し、競争力のある推論モデルを上回っている。
これらの結果は、複雑な実世界のタスクにおける推論対応検索戦略の有効性を示す。
関連論文リスト
- Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Efficient Conversational Search via Topical Locality in Dense Retrieval [9.38751103209178]
我々は、応答時間を改善するために、会話クエリに固有のトピックの局所性を利用する。
クエリの埋め込み類似性を活用することで,検索空間を意味的に関連するドキュメントクラスタに動的に制限する。
その結果,提案システムは複雑なマルチターンクエリを高い精度と効率で効果的に処理できることが示唆された。
論文 参考訳(メタデータ) (2025-04-30T10:56:34Z) - Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Beyond Relevant Documents: A Knowledge-Intensive Approach for Query-Focused Summarization using Large Language Models [27.90653125902507]
本稿では,知識集約型タスク設定として,クエリ中心の要約を再構成する知識集約型アプローチを提案する。
検索モジュールは、大規模知識コーパスから潜在的に関連のある文書を効率的に検索する。
要約コントローラは、強力な大言語モデル(LLM)ベースの要約器を注意深く調整されたプロンプトとシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-19T18:54:20Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。