論文の概要: DeepWideSearch: Benchmarking Depth and Width in Agentic Information Seeking
- arxiv url: http://arxiv.org/abs/2510.20168v1
- Date: Thu, 23 Oct 2025 03:28:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.231723
- Title: DeepWideSearch: Benchmarking Depth and Width in Agentic Information Seeking
- Title(参考訳): DeepWideSearch:エージェント情報検索における深さと幅のベンチマーク
- Authors: Tian Lan, Bin Zhu, Qianghuai Jia, Junyang Ren, Haijun Li, Longyue Wang, Zhao Xu, Weihua Luo, Kaifu Zhang,
- Abstract要約: DeepWideSearchは、情報検索の深さと幅を統合するエージェントを評価するために設計された最初のベンチマークである。
DeepWideSearchでは、エージェントは大量のデータを処理し、それぞれがマルチホップ検索パスに対して深い推論を必要とする。
実験の結果、最先端のエージェントでさえ平均的な成功率は2.39%に過ぎなかった。
- 参考スコア(独自算出の注目度): 42.413184411326164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current search agents fundamentally lack the ability to simultaneously perform \textit{deep} reasoning over multi-hop retrieval and \textit{wide}-scale information collection-a critical deficiency for real-world applications like comprehensive market analysis and business development. To bridge this gap, we introduce DeepWideSearch, the first benchmark explicitly designed to evaluate agents to integrate depth and width in information seeking. In DeepWideSearch, agents must process a large volume of data, each requiring deep reasoning over multi-hop retrieval paths. Specifically, we propose two methods to converse established datasets, resulting in a curated collection of 220 questions spanning 15 diverse domains. Extensive experiments demonstrate that even state-of-the-art agents achieve only 2.39% average success rate on DeepWideSearch, highlighting the substantial challenge of integrating depth and width search in information-seeking tasks. Furthermore, our error analysis reveals four failure modes: lack of reflection, overreliance on internal knowledge, insufficient retrieval, and context overflow-exposing key limitations in current agent architectures. We publicly release DeepWideSearch to catalyze future research on more capable and robust information-seeking agents.
- Abstract(参考訳): 現在の検索エージェントは、マルチホップ検索と大規模な情報収集-包括的な市場分析やビジネス開発のような現実世界のアプリケーションにとって重要な欠陥-を同時に実行する能力が欠如している。
このギャップを埋めるために、情報検索の深さと幅を統合するエージェントを明示的に評価するために設計された最初のベンチマークであるDeepWideSearchを紹介します。
DeepWideSearchでは、エージェントは大量のデータを処理し、それぞれがマルチホップ検索パスに対して深い推論を必要とする。
具体的には、確立されたデータセットを変換する2つの方法を提案し、その結果、15の異なる領域にまたがる220の質問が収集された。
大規模な実験では、最先端のエージェントでさえDeepWideSearchで平均的な成功率は2.39%に過ぎず、情報検索タスクに深さと幅の探索を統合するという大きな課題が浮かび上がっている。
さらに、我々のエラー解析では、リフレクションの欠如、内部知識への過度な依存、不十分な検索、現在のエージェントアーキテクチャにおけるコンテキストオーバーフローによる重要な制限の4つの障害モードが明らかにされている。
我々はDeepWideSearchを公開し、より有能で堅牢な情報検索エージェントに関する将来の研究を触媒する。
関連論文リスト
- Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs [7.3517692707289415]
本稿では2つの特殊モデルからなるエージェントシステムであるFathom-DeepResearchを紹介する。
ひとつは、ライブWeb検索とターゲットWebページクエリによるエビデンスベースの調査に最適化された、DeepSearchモデルであるFathom-Search-4Bである。
2つ目は、Qwen3-4Bから訓練されたFathom-Synthesizer-4Bである。
論文 参考訳(メタデータ) (2025-09-28T22:58:11Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。