論文の概要: DR$^{3}$-Eval: Towards Realistic and Reproducible Deep Research Evaluation
- arxiv url: http://arxiv.org/abs/2604.14683v1
- Date: Thu, 16 Apr 2026 06:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.760782
- Title: DR$^{3}$-Eval: Towards Realistic and Reproducible Deep Research Evaluation
- Title(参考訳): DR$^{3}$-Eval:Realistic and Reproducible Deep Research Evaluationを目指して
- Authors: Qianqian Xie, Qingheng Xiong, He Zhu, Tiantian Xia, Xueming Han, Fanyu Meng, Jiakai Wang, Zhiqi Bai, Chengkang Jiang, Zhaohui Wang, Yubin Guo, Yuqing Wen, Jiayang Mao, Zijie Zhang, Shihao Li, Yanghai Wang, Yuxiang Ren, Junlan Feng, Jiaheng Liu,
- Abstract要約: Deep Research Agents (DRA) は、計画、検索、マルチモーダル理解、レポート生成を含む、複雑で長期にわたる研究課題を解決することを目的としている。
DR$3$-Evalは,マルチモーダル・マルチファイルレポート生成におけるディープリサーチエージェントの評価のための,現実的で再現可能なベンチマークである。
- 参考スコア(独自算出の注目度): 55.02569059688697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Research Agents (DRAs) aim to solve complex, long-horizon research tasks involving planning, retrieval, multimodal understanding, and report generation, yet their evaluation remains challenging due to dynamic web environments and ambiguous task definitions. We propose DR$^{3}$-Eval, a realistic and reproducible benchmark for evaluating deep research agents on multimodal, multi-file report generation. DR$^{3}$-Eval is constructed from authentic user-provided materials and paired with a per-task static research sandbox corpus that simulates open-web complexity while remaining fully verifiable, containing supportive documents, distractors, and noise. Moreover, we introduce a multi-dimensional evaluation framework measuring Information Recall, Factual Accuracy, Citation Coverage, Instruction Following, and Depth Quality, and validate its alignment with human judgments. Experiments with our developed multi-agent system DR$^{3}$-Agent based on multiple state-of-the-art language models demonstrate that DR$^{3}$-Eval is highly challenging and reveals critical failure modes in retrieval robustness and hallucination control. Our code and data are publicly available.
- Abstract(参考訳): Deep Research Agents (DRA) は、計画、検索、マルチモーダル理解、レポート生成を含む複雑で長期にわたる研究課題を解決することを目的としている。
DR$^{3}$-Evalは,マルチモーダル・マルチファイルレポート生成におけるディープリサーチエージェントの評価のための,現実的で再現可能なベンチマークである。
DR$^{3}$-Evalは、ユーザが提供する本物の素材から構築され、タスクごとの静的な研究用サンドボックスコーパスと組み合わせて、オープンウェブの複雑さをシミュレートする。
さらに,情報リコール,Factual Accuracy, Citation Coverage, Instruction following, and Depth Qualityを測定する多次元評価フレームワークを導入し,人間の判断との整合性を検証する。
複数の最先端言語モデルに基づくマルチエージェントシステム DR$^{3}$-Agent を用いた実験により,DR$^{3}$-Eval は極めて困難であり,検索堅牢性と幻覚制御において重要な障害モードを示す。
私たちのコードとデータは公開されています。
関連論文リスト
- AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research [85.51475655916026]
AgentCPM-Reportは軽量だが高性能なローカルソリューションで、人間の記述プロセスを反映したフレームワークで構成されている。
我々のフレームワークは、モデルがアウトラインを動的に修正できるWARP(Writeing As Reasoning Policy)を使用している。
DeepResearch Bench、DeepConsult、DeepResearch Gymの実験は、AgentCPM-Reportが主要なクローズドソースシステムより優れていることを示した。
論文 参考訳(メタデータ) (2026-02-06T09:45:04Z) - DR-Arena: an Automated Evaluation Framework for Deep Research Agents [35.99095633093855]
大規模言語モデル(LLM)は、自律的な調査と情報合成が可能なディープリサーチ(DR)エージェントとしてますます運用されている。
現在のベンチマークは主に静的データセットに依存しており、タスクの汎用性、時間的ミスアライメント、データ汚染に悩まされている。
本稿では,DRエージェントを動的調査により能力限界まで押し上げる完全自動評価フレームワークであるDR-Arenaを紹介する。
論文 参考訳(メタデータ) (2026-01-15T15:28:21Z) - DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation [56.886936435727854]
DeepResearchEvalは、ディープリサーチタスク構築とエージェント評価のための自動化フレームワークである。
タスク構築のために,多様なユーザプロファイルに固定された現実的で複雑な研究タスクを生成するペルソナ駆動パイプラインを提案する。
評価には,タスク固有の評価次元,基準,重みを動的に導出する適応的ポイントワイド品質評価と,引用が欠落した場合でもWeb検索によるレポート文の自動抽出と検証を行うアクティブ・ファクト・チェッキングの2つの要素からなるエージェントパイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-14T18:38:31Z) - A Hierarchical Tree-based approach for creating Configurable and Static Deep Research Agent (Static-DRA) [0.0]
本稿では,階層木に基づく静的ワークフローに基づく新しいソリューションである静的ディープリサーチエージェント(Static-DRA)を紹介する。
コアコントリビューションは、DepthとBreadthという2つのユーザチューニング可能なパラメータの統合である。
エージェントのアーキテクチャは、スーパーバイザ、インディペンデント、およびWorkerエージェントで構成され、効果的なマルチホップ情報検索を促進する。
論文 参考訳(メタデータ) (2025-12-03T15:37:13Z) - ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents [11.666923792025313]
Deep Research(DR)は、大規模言語モデルを活用して、オープンなクエリに対処する新興エージェントアプリケーションである。
我々はResearchRubricsを紹介します。これは2,800時間以上の人的労働時間で構築されたDRの標準ベンチマークです。
また,DRタスクを3つの軸(概念的幅,論理的ネスト,探索)に沿って分類する,新たな複雑性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-10T23:07:14Z) - WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research [73.58638285105971]
本稿では,AIエージェントが膨大なWebスケール情報を洞察に富むレポートに合成しなければならない複雑な課題であるtextbfopen-ended Deep Research (OEDR) に取り組む。
人間の研究プロセスをエミュレートする新しいデュアルエージェントフレームワークである textbfWebWeaver を紹介する。
私たちのフレームワークは、DeepResearch Bench、DeepConsult、DeepResearchGymなど、主要なOEDRベンチマークにまたがる最先端の新たなベンチマークを確立しています。
論文 参考訳(メタデータ) (2025-09-16T17:57:21Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [63.22096609916707]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。