論文の概要: How Far Are We from Genuinely Useful Deep Research Agents?
- arxiv url: http://arxiv.org/abs/2512.01948v1
- Date: Mon, 01 Dec 2025 17:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.006077
- Title: How Far Are We from Genuinely Useful Deep Research Agents?
- Title(参考訳): 深層研究に役に立つエージェントは、どれくらいあるのか?
- Authors: Dingling Zhang, He Zhu, Jincheng Ren, Kangqi Song, Xinran Zhou, Boyu Feng, Shudong Liu, Jiabin Luo, Weihao Xie, Zhaohui Wang, Tianrui Qin, King Zhu, Yuqing Wang, Qianben Chen, Yuchen Eleanor Jiang, Wei Wang, Jiaheng Liu, Wangchunshu Zhou,
- Abstract要約: Deep Research Agents (DRA) は、反復的な情報検索と合成によってアナリストレベルのレポートを自動的に生成することを目的としている。
レポート合成の現在のベンチマークは、タスクの複雑さと主観的なメトリクスに悩まされている。
我々は,100個の人為的な研究タスクからなる改良されたベンチマークであるFINDER(FinDER)について述べる。
- 参考スコア(独自算出の注目度): 48.596990593729
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep Research Agents (DRAs) aim to automatically produce analyst-level reports through iterative information retrieval and synthesis. However, most existing DRAs were validated on question-answering benchmarks, while research on generating comprehensive reports remains overlooked. Worse, current benchmarks for report synthesis suffer from task complexity and subjective metrics -- this fails to reflect user demands and limits the practical utility of generated reports. To address these gaps, we present Fine-grained DEepResearch bench (FINDER), an enhanced benchmark consisting of 100 human-curated research tasks with 419 structured checklist items that standardize report structure, analytical depth, and factual grounding. Based on approximately 1,000 reports produced by mainstream DRAs, we further propose Deep rEsearch Failure Taxonomy (DEFT), the first failure taxonomy for deep research agents. DEFT contains 14 fine-grained failure modes across reasoning, retrieval, and generation, and is built upon grounded theory with human-LLM co-annotating and inter-annotator reliability validation. Our experimental findings reveal that current DRAs struggle not with task comprehension but with evidence integration, verification, and reasoning-resilient planning.
- Abstract(参考訳): Deep Research Agents (DRA) は、反復的な情報検索と合成によってアナリストレベルのレポートを自動生成することを目的としている。
しかし、既存のほとんどのDRAは質問応答ベンチマークで検証されたが、包括的なレポートの生成に関する研究は見過ごされている。
さらに悪いことに、レポート合成の現在のベンチマークは、タスクの複雑さと主観的なメトリクスに悩まされている -- これは、ユーザの要求を反映せず、生成されたレポートの実用性を制限する。
これらのギャップに対処するため, 報告構造, 分析深度, 事実的接地を標準化した419個のチェックリスト項目を備えた100個の人為的な調査タスクからなる改良型ベンチマークであるFINDER(FINDER)を提案する。
そこで本研究では,DRAによる約1000件の報告に基づいて,Deep rEsearch Failure Taxonomy (DEFT)を提案する。
DEFTには推論、検索、生成にまたがる14のきめ細かな障害モードが含まれており、人間-LLMのコノテートとアノテーション間の信頼性検証による基礎理論に基づいている。
実験結果から,現在のDRAはタスク理解に苦しむのではなく,エビデンス統合,検証,合理的計画に苦しむことが明らかとなった。
関連論文リスト
- A Rigorous Benchmark with Multidimensional Evaluation for Deep Research Agents: From Answers to Reports [24.09178055088843]
Deep Research Agents (DRA)は、タスク分解、クロスソース検索、多段階推論、構造化出力の能力を示す。
本稿では,DRAとレポートスタイルの応答に適した厳密なベンチマークと多次元評価フレームワークを提案する。
このフレームワークは、DRAが生成した長期レポートの総合的な評価を可能にし、セマンティックな品質、トピックの焦点、検索の信頼性のための総合的なスコアリング指標を統合する。
論文 参考訳(メタデータ) (2025-10-02T16:40:02Z) - DRBench: A Realistic Benchmark for Enterprise Deep Research [81.49694432639406]
DRBenchは、エンタープライズ環境で複雑でオープンなディープリサーチタスクでAIエージェントを評価するためのベンチマークである。
セールス、サイバーセキュリティ、コンプライアンスなど10のドメインにわたる15のディープリサーチタスクをリリースしています。
論文 参考訳(メタデータ) (2025-09-30T18:47:20Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - DeepTRACE: Auditing Deep Research AI Systems for Tracking Reliability Across Citations and Evidence [50.97612134791782]
生成検索エンジンと深層研究のLLMエージェントは、信頼できるソース・グラウンドの合成を約束するが、ユーザーは常に過剰な自信、弱いソーシング、紛らわしい引用の慣行に遭遇する。
DeepTRACEは、社会技術的に基礎をおく新しい監査フレームワークで、コミュニティが特定した失敗事例を、回答テキスト、情報源、引用にまたがる8つの測定可能な次元に変換する。
論文 参考訳(メタデータ) (2025-09-02T00:32:38Z) - ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks [14.371010711040304]
ReportBenchは、大規模言語モデル(LLM)によって生成された研究レポートの内容品質を評価するために設計されたベンチマークである。
本評価は,(1)引用文献の質と妥当性,(2)報告内容の忠実さと妥当性の2つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-14T03:33:43Z) - Characterizing Deep Research: A Benchmark and Formal Definition [24.523394260858822]
本稿では,Deep Research (DR) タスクの形式的特徴付けと,DRシステムの性能評価のためのベンチマークを提案する。
ディープリサーチのコアとなる特徴は、レポートスタイルのアウトプットの生成ではなく、検索プロセスで必要となる概念に対する高いファンアウトである、と我々は主張する。
論文 参考訳(メタデータ) (2025-08-06T08:09:28Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。