論文の概要: DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval
- arxiv url: http://arxiv.org/abs/2508.07995v1
- Date: Mon, 11 Aug 2025 13:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.129142
- Title: DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval
- Title(参考訳): DIVER: 推論集約型情報検索のためのマルチステージアプローチ
- Authors: Meixiu Long, Duolin Sun, Dan Yang, Junjie Wang, Yue Shen, Jian Wang, Peng Wei, Jinjie Gu, Jiahai Wang,
- Abstract要約: 推論集約型情報検索に適した検索パイプラインである textbfDIVER を提案する。
BRIGHTベンチマークでは、DIVERは元のクエリで最先端のnDCG@10スコアの41.6と28.9を達成している。
コードと検索モデルはまもなくリリースされます。
- 参考スコア(独自算出の注目度): 26.374811264047537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation has achieved strong performance on knowledge-intensive tasks where query-document relevance can be identified through direct lexical or semantic matches. However, many real-world queries involve abstract reasoning, analogical thinking, or multi-step inference, which existing retrievers often struggle to capture. To address this challenge, we present \textbf{DIVER}, a retrieval pipeline tailored for reasoning-intensive information retrieval. DIVER consists of four components: document processing to improve input quality, LLM-driven query expansion via iterative document interaction, a reasoning-enhanced retriever fine-tuned on synthetic multi-domain data with hard negatives, and a pointwise reranker that combines LLM-assigned helpfulness scores with retrieval scores. On the BRIGHT benchmark, DIVER achieves state-of-the-art nDCG@10 scores of 41.6 and 28.9 on original queries, consistently outperforming competitive reasoning-aware models. These results demonstrate the effectiveness of reasoning-aware retrieval strategies in complex real-world tasks. Our code and retrieval model will be released soon.
- Abstract(参考訳): Retrieval-augmented Generationは、クエリドキュメントの関連性を直接の語彙やセマンティックマッチングによって識別できる知識集約タスクにおいて、強力なパフォーマンスを実現している。
しかし、多くの現実世界のクエリには抽象的推論、アナログ的思考、多段階推論が含まれており、既存のレトリバーがしばしば捕えるのに苦労している。
この課題に対処するために、推論集約的な情報検索に適した検索パイプラインである \textbf{DIVER} を提示する。
DIVERは,入力品質向上のための文書処理,反復的文書間相互作用によるLLM駆動クエリ拡張,高負の合成多ドメインデータに微調整された推論型検索器,LLM指定の有用なスコアと検索スコアを組み合わせたポイントワイズ・リランカの4つのコンポーネントから構成される。
BRIGHTベンチマークでは、DIVERは元のクエリで最先端のnDCG@10スコアの41.6と28.9を達成し、競争力のある推論モデルよりも一貫して優れている。
これらの結果は、複雑な実世界のタスクにおける推論対応検索戦略の有効性を示す。
コードと検索モデルはまもなくリリースされます。
関連論文リスト
- Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Efficient Conversational Search via Topical Locality in Dense Retrieval [9.38751103209178]
我々は、応答時間を改善するために、会話クエリに固有のトピックの局所性を利用する。
クエリの埋め込み類似性を活用することで,検索空間を意味的に関連するドキュメントクラスタに動的に制限する。
その結果,提案システムは複雑なマルチターンクエリを高い精度と効率で効果的に処理できることが示唆された。
論文 参考訳(メタデータ) (2025-04-30T10:56:34Z) - Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER)
DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。
実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Beyond Relevant Documents: A Knowledge-Intensive Approach for Query-Focused Summarization using Large Language Models [27.90653125902507]
本稿では,知識集約型タスク設定として,クエリ中心の要約を再構成する知識集約型アプローチを提案する。
検索モジュールは、大規模知識コーパスから潜在的に関連のある文書を効率的に検索する。
要約コントローラは、強力な大言語モデル(LLM)ベースの要約器を注意深く調整されたプロンプトとシームレスに統合する。
論文 参考訳(メタデータ) (2024-08-19T18:54:20Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。