論文の概要: DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report
- arxiv url: http://arxiv.org/abs/2601.08536v1
- Date: Tue, 13 Jan 2026 13:18:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.212894
- Title: DeepResearch Bench II: Diagnosing Deep Research Agents via Rubrics from Expert Report
- Title(参考訳): DeepResearch Bench II: 専門家報告より
- Authors: Ruizhe Li, Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao,
- Abstract要約: 我々は、ディープリサーチシステムを評価するための新しいベンチマークであるDeep Research Bench IIを紹介する。
各タスクに対して、システムは9430個の微細なバイナリルーブリックによって評価される長期の研究レポートを生成する必要がある。
我々は、Deep Research Bench IIにおける最先端のディープリサーチシステムを評価し、最強のモデルでさえ、ルーリックの50%以下を満たすことを発見した。
- 参考スコア(独自算出の注目度): 36.25273583677749
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep Research Systems (DRS) aim to help users search the web, synthesize information, and deliver comprehensive investigative reports. However, how to rigorously evaluate these systems remains under-explored. Existing deep-research benchmarks often fall into two failure modes. Some do not adequately test a system's ability to analyze evidence and write coherent reports. Others rely on evaluation criteria that are either overly coarse or directly defined by LLMs (or both), leading to scores that can be biased relative to human experts and are hard to verify or interpret. To address these issues, we introduce Deep Research Bench II, a new benchmark for evaluating DRS-generated reports. It contains 132 grounded research tasks across 22 domains; for each task, a system must produce a long-form research report that is evaluated by a set of 9430 fine-grained binary rubrics in total, covering three dimensions: information recall, analysis, and presentation. All rubrics are derived from carefully selected expert-written investigative articles and are constructed through a four-stage LLM+human pipeline that combines automatic extraction with over 400 human-hours of expert review, ensuring that the criteria are atomic, verifiable, and aligned with human expert judgment. We evaluate several state-of-the-art deep-research systems on Deep Research Bench II and find that even the strongest models satisfy fewer than 50% of the rubrics, revealing a substantial gap between current DRSs and human experts.
- Abstract(参考訳): Deep Research Systems (DRS)は、ユーザがWebを検索し、情報を合成し、包括的な調査レポートを提供するのを支援することを目的としている。
しかし、これらのシステムをどのように厳格に評価するかはまだ未定である。
既存のDeep-Researchベンチマークは、しばしば2つの障害モードに分類される。
証拠を分析し、コヒーレントなレポートを書くシステムの能力を十分にテストしない者もいる。
評価基準はLLM(またはその両方)によって過度に粗いか直接定義されるかに依存しており、人間の専門家に対して偏見があり、検証や解釈が困難である。
これらの問題に対処するために、DRS生成レポートを評価するための新しいベンチマークであるDeep Research Bench IIを紹介する。
システムには、22ドメインにわたる132の基礎研究タスクが含まれており、各タスクに対して、9430個の細粒度のバイナリルーリックによって評価され、情報リコール、分析、プレゼンテーションの3つの次元をカバーする長期的な研究レポートを作成する必要がある。
全てのルーリックは、慎重に選択された専門家による調査記事から派生し、自動抽出と400時間以上の専門家レビューを組み合わせた4段階のLLM+ヒューマンパイプラインを通して構築され、基準が原子性であり、検証可能であり、人間の専門家の判断に適合していることを保証する。
我々は、Deep Research Bench IIにおける最先端のディープリサーチシステムを評価し、最強のモデルでさえ、ルーリックの50%以下を満足していることを発見し、現在のDRSと人間の専門家の間に大きなギャップがあることを明らかにした。
関連論文リスト
- DEER: A Comprehensive and Reliable Benchmark for Deep-Research Expert Reports [49.217247659479476]
ディープリサーチシステムは、多段階の推論とエビデンスベースの合成を通じて専門家レベルのレポートを生成することができる。
既存のベンチマークは、エキスパートレポートの体系的な基準を欠いていることが多い。
専門家レベルのディープリサーチレポートを評価するためのベンチマークであるDEERを紹介する。
論文 参考訳(メタデータ) (2025-12-19T16:46:20Z) - How Far Are We from Genuinely Useful Deep Research Agents? [48.596990593729]
Deep Research Agents (DRA) は、反復的な情報検索と合成によってアナリストレベルのレポートを自動的に生成することを目的としている。
レポート合成の現在のベンチマークは、タスクの複雑さと主観的なメトリクスに悩まされている。
我々は,100個の人為的な研究タスクからなる改良されたベンチマークであるFINDER(FinDER)について述べる。
論文 参考訳(メタデータ) (2025-12-01T17:58:59Z) - ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents [11.666923792025313]
Deep Research(DR)は、大規模言語モデルを活用して、オープンなクエリに対処する新興エージェントアプリケーションである。
我々はResearchRubricsを紹介します。これは2,800時間以上の人的労働時間で構築されたDRの標準ベンチマークです。
また,DRタスクを3つの軸(概念的幅,論理的ネスト,探索)に沿って分類する,新たな複雑性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-10T23:07:14Z) - LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild [86.6586720134927]
LiveResearchBenchは、日々の生活、企業、アカデミックにまたがる100の専門家によるタスクのベンチマークである。
DeepEvalは、コンテンツレベルの品質とレポートレベルの品質の両方をカバーする包括的なスイートである。
我々の分析は、信頼性と洞察に富んだ深い研究を進めるために必要な、現在の強み、繰り返し発生する障害モード、および重要なシステムコンポーネントを明らかにします。
論文 参考訳(メタデータ) (2025-10-16T02:49:16Z) - Understanding DeepResearch via Reports [41.60038455664918]
DeepResearchは、高度な推論とマルチツール統合を通じて専門家レベルの研究を行う、変革的なAIパラダイムである。
これらのシステムを評価することは、オープンな研究シナリオと、独立した機能に焦点を当てた既存のベンチマークのため、依然として極めて難しい。
DeepResearch-ReportEvalは、DeepResearchシステムを最も代表的なアウトプットで評価するための総合的なフレームワークである。
論文 参考訳(メタデータ) (2025-10-09T07:03:43Z) - DeepTRACE: Auditing Deep Research AI Systems for Tracking Reliability Across Citations and Evidence [50.97612134791782]
生成検索エンジンと深層研究のLLMエージェントは、信頼できるソース・グラウンドの合成を約束するが、ユーザーは常に過剰な自信、弱いソーシング、紛らわしい引用の慣行に遭遇する。
DeepTRACEは、社会技術的に基礎をおく新しい監査フレームワークで、コミュニティが特定した失敗事例を、回答テキスト、情報源、引用にまたがる8つの測定可能な次元に変換する。
論文 参考訳(メタデータ) (2025-09-02T00:32:38Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。