論文の概要: Revisiting Text Ranking in Deep Research
- arxiv url: http://arxiv.org/abs/2602.21456v1
- Date: Wed, 25 Feb 2026 00:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.648337
- Title: Revisiting Text Ranking in Deep Research
- Title(参考訳): 深層研究におけるテキストランキングの再検討
- Authors: Chuan Meng, Litu Ou, Sean MacAvaney, Jeff Dalton,
- Abstract要約: Black-box Web Search APIは、検索コンポーネントの体系的な分析を妨げる。
我々は、深い研究環境において、IRテキストランキング手法における重要な発見とベストプラクティスの選択を再現する。
- 参考スコア(独自算出の注目度): 24.324221566628125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep research has emerged as an important task that aims to address hard queries through extensive open-web exploration. To tackle it, most prior work equips large language model (LLM)-based agents with opaque web search APIs, enabling agents to iteratively issue search queries, retrieve external evidence, and reason over it. Despite search's essential role in deep research, black-box web search APIs hinder systematic analysis of search components, leaving the behaviour of established text ranking methods in deep research largely unclear. To fill this gap, we reproduce a selection of key findings and best practices for IR text ranking methods in the deep research setting. In particular, we examine their effectiveness from three perspectives: (i) retrieval units (documents vs. passages), (ii) pipeline configurations (different retrievers, re-rankers, and re-ranking depths), and (iii) query characteristics (the mismatch between agent-issued queries and the training queries of text rankers). We perform experiments on BrowseComp-Plus, a deep research dataset with a fixed corpus, evaluating 2 open-source agents, 5 retrievers, and 3 re-rankers across diverse setups. We find that agent-issued queries typically follow web-search-style syntax (e.g., quoted exact matches), favouring lexical, learned sparse, and multi-vector retrievers; passage-level units are more efficient under limited context windows, and avoid the difficulties of document length normalisation in lexical retrieval; re-ranking is highly effective; translating agent-issued queries into natural-language questions significantly bridges the query mismatch.
- Abstract(参考訳): ディープリサーチは、大規模なオープンWeb探索を通じてハードクエリに対処することを目的とした重要なタスクとして登場した。
これを解決するために、ほとんどの以前の作業は、大きな言語モデル(LLM)ベースのエージェントに不透明なWeb検索APIを装備し、エージェントが検索クエリを反復的に発行し、外部のエビデンスを検索し、それに対する推論を可能にする。
検索が深層研究に不可欠な役割を担っているにもかかわらず、ブラックボックスのウェブ検索APIは検索コンポーネントの体系的な分析を妨げ、確立されたテキストランキング手法の振る舞いはほとんど不明である。
このギャップを埋めるために、深い研究環境でIRテキストランキング手法の重要発見とベストプラクティスの選択を再現する。
特に,3つの視点から有効性を検討する。
一 検索装置(書類対通路)
(二 パイプライン構成(異種レトリバー、リランカー、再ランク深度)及び
(3)クエリ特性(エージェント発行クエリとテキストローダのトレーニングクエリのミスマッチ)
我々はBrowseComp-Plusの実験を行った。BrowseComp-Plusは、固定コーパスを持つ深層研究データセットで、2つのオープンソースエージェント、5つのレトリバー、3つの再ランカを多様なセットアップで評価する。
エージェント発行クエリは、通常、Web検索スタイルの構文(例えば、引用された正確な一致)に従い、語彙、学習されたスパース、マルチベクター検索を好んでおり、通過レベルユニットは限られたコンテキストウィンドウ下でより効率的であり、語彙検索における文書長正規化の難しさを回避している。
関連論文リスト
- Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - ManuSearch: Democratizing Deep Search in Large Language Models with a Transparent and Open Multi-Agent Framework [73.91207117772291]
ManuSearchは,大規模言語モデル(LLM)の深層検索を民主化するために設計された,透明でモジュール化されたマルチエージェントフレームワークである。
ManuSearchは検索と推論のプロセスを,(1)サブクエリを反復的に定式化するソリューション計画エージェント,(2)リアルタイムWeb検索を通じて関連文書を検索するインターネット検索エージェント,(3)生のWebコンテンツから重要な証拠を抽出する構造化Webページ読取エージェントの3つに分解する。
論文 参考訳(メタデータ) (2025-05-23T17:02:02Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。