論文の概要: DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents
- arxiv url: http://arxiv.org/abs/2601.20975v1
- Date: Wed, 28 Jan 2026 19:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.39779
- Title: DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents
- Title(参考訳): DeepSearchQA: ディープリサーチエージェントのための包括性ギャップをブリッジする
- Authors: Nikita Gupta, Riju Chatterjee, Lukas Haas, Connie Tao, Andrew Wang, Chang Liu, Hidekazu Oiwa, Elena Gribovskaya, Jan Ackermann, John Blitzer, Sasha Goldshtein, Dipanjan Das,
- Abstract要約: DeepSearchQAは、難しい多段階情報検索タスクのエージェントを評価する900プロンプトのベンチマークである。
このデータセットは、エージェントが複雑な検索計画を実行し、完全な回答リストを生成する能力を評価するように設計されている。
- 参考スコア(独自算出の注目度): 10.197402632091551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DeepSearchQA, a 900-prompt benchmark for evaluating agents on difficult multi-step information-seeking tasks across 17 different fields. Unlike traditional benchmarks that target single answer retrieval or broad-spectrum factuality, DeepSearchQA features a dataset of challenging, handcrafted tasks designed to evaluate an agent's ability to execute complex search plans to generate exhaustive answer lists. This shift in design explicitly tests three critical, yet under-evaluated capabilities: 1) systematic collation of fragmented information from disparate sources, 2) de-duplication and entity resolution to ensure precision, and 3) the ability to reason about stopping criteria within an open-ended search space. Each task is structured as a causal chain, where discovering information for one step is dependent on the successful completion of the previous one, stressing long-horizon planning and context retention. All tasks are grounded in the open web with objectively verifiable answer sets. Our comprehensive evaluation of state-of-the-art agent architectures reveals significant performance limitations: even the most advanced models struggle to balance high recall with precision. We observe distinct failure modes ranging from premature stopping (under-retrieval) to hedging behaviors, where agents cast an overly wide net of low-confidence answers to artificially boost recall. These findings highlight critical headroom in current agent designs and position DeepSearchQA as an essential diagnostic tool for driving future research toward more robust, deep-research capabilities.
- Abstract(参考訳): 我々は17の分野にわたる難解な多段階情報探索タスクのエージェント評価のための900プロンプトベンチマークであるDeepSearchQAを紹介する。
単一回答検索や広視野事実性をターゲットにした従来のベンチマークとは異なり、DeepSearchQAは、エージェントが複雑な検索計画を実行して完全な回答リストを生成する能力を評価するために設計された、困難な手作業のデータセットを備えている。
この設計のシフトは、3つの重要かつ過小評価された機能を明示的にテストする。
1) 異種資料からの断片情報の体系的照合
2【正確性を確保するための重複解消及び実体解決】
3) オープンエンド検索空間内での基準の停止を判断する能力。
それぞれのタスクは因果連鎖として構成され、1ステップの発見情報は前回の完了の成功に依存し、長期計画とコンテキスト保持を強調する。
すべてのタスクは、客観的に検証可能な回答セットを備えたオープンウェブに基盤を置いている。
最先端モデルでさえ、高いリコールと精度のバランスをとるのに苦労している。
エージェントが低信頼の回答を網羅し,リコールを人工的に促進する,早期停止(検索下)からヘッジ行動まで,さまざまな障害モードを観察した。
これらの知見は,DeepSearchQAが今後,より堅牢で深い研究能力に向けて研究を進める上で不可欠な診断ツールとして,現在のエージェント設計において重要な役割を担っていることを浮き彫りにしている。
関連論文リスト
- Yunque DeepResearch Technical Report [12.184074646161223]
Yunque DeepResearchは階層的でモジュール的で堅牢なディープリサーチフレームワークである。
さまざまなエージェントによるディープリサーチベンチマークで最先端のパフォーマンスを実現している。
私たちは、コミュニティに力を与えるためのフレームワーク、再現可能な実装、そしてアプリケーションケースをオープンソースにしています。
論文 参考訳(メタデータ) (2026-01-27T13:10:00Z) - SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback [68.60326181052658]
本稿では,高品質で難易度の高い探索問合せを自動生成するエージェントパイプラインを提案する。
我々のパイプラインであるSAGEは、QAペアを提案するデータジェネレータと、生成された質問を解決するための検索エージェントで構成される。
我々の本質的な評価は、SAGEが様々な推論戦略を必要とする質問を生成する一方で、生成したデータの正確性や難易度を著しく高めていることを示している。
論文 参考訳(メタデータ) (2026-01-26T06:37:56Z) - DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation [56.886936435727854]
DeepResearchEvalは、ディープリサーチタスク構築とエージェント評価のための自動化フレームワークである。
タスク構築のために,多様なユーザプロファイルに固定された現実的で複雑な研究タスクを生成するペルソナ駆動パイプラインを提案する。
評価には,タスク固有の評価次元,基準,重みを動的に導出する適応的ポイントワイド品質評価と,引用が欠落した場合でもWeb検索によるレポート文の自動抽出と検証を行うアクティブ・ファクト・チェッキングの2つの要素からなるエージェントパイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-14T18:38:31Z) - SmartSearch: Process Reward-Guided Query Refinement for Search Agents [63.46067892354375]
大言語モデル(LLM)に基づく検索エージェントは、知識集約的な問題に対処するために有望であることが証明されている。
既存の研究は主に、検索エージェントの推論パラダイムの最適化に重点を置いているが、推論中の中間的な検索クエリの品質は見過ごされ続けている。
この問題を緩和する2つの主要なメカニズムの上に構築されたフレームワークであるSmartSearchを紹介します。
論文 参考訳(メタデータ) (2026-01-08T12:39:05Z) - Deep Research: A Systematic Survey [118.82795024422722]
Deep Research (DR)は、大規模言語モデルの推論能力と検索エンジンなどの外部ツールを組み合わせることを目的としている。
本調査は,深層研究システムの包括的かつ体系的な概要を提示する。
論文 参考訳(メタデータ) (2025-11-24T15:28:28Z) - DeepWideSearch: Benchmarking Depth and Width in Agentic Information Seeking [42.413184411326164]
DeepWideSearchは、情報検索の深さと幅を統合するエージェントを評価するために設計された最初のベンチマークである。
DeepWideSearchでは、エージェントは大量のデータを処理し、それぞれがマルチホップ検索パスに対して深い推論を必要とする。
実験の結果、最先端のエージェントでさえ平均的な成功率は2.39%に過ぎなかった。
論文 参考訳(メタデータ) (2025-10-23T03:28:45Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。