論文の概要: DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents
- arxiv url: http://arxiv.org/abs/2506.11763v1
- Date: Fri, 13 Jun 2025 13:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.803763
- Title: DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents
- Title(参考訳): DeepResearch Bench: ディープリサーチエージェントの総合ベンチマーク
- Authors: Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao,
- Abstract要約: DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 30.768405850755602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Research Agents are a prominent category of LLM-based agents. By autonomously orchestrating multistep web exploration, targeted retrieval, and higher-order synthesis, they transform vast amounts of online information into analyst-grade, citation-rich reports--compressing hours of manual desk research into minutes. However, a comprehensive benchmark for systematically evaluating the capabilities of these agents remains absent. To bridge this gap, we present DeepResearch Bench, a benchmark consisting of 100 PhD-level research tasks, each meticulously crafted by domain experts across 22 distinct fields. Evaluating DRAs is inherently complex and labor-intensive. We therefore propose two novel methodologies that achieve strong alignment with human judgment. The first is a reference-based method with adaptive criteria to assess the quality of generated research reports. The other framework is introduced to evaluate DRA's information retrieval and collection capabilities by assessing its effective citation count and overall citation accuracy. We have open-sourced DeepResearch Bench and key components of these frameworks at https://github.com/Ayanami0730/deep_research_bench to accelerate the development of practical LLM-based agents.
- Abstract(参考訳): ディープ・リサーチ・エージェント(Deep Research Agents)は、LDMベースのエージェントの顕著なカテゴリである。
多段階のウェブ探索、ターゲット検索、高次合成を自律的に編成することで、膨大な量のオンライン情報を分析グレードで引用に富んだレポートに変換し、手作業による机の研究時間を数分に短縮する。
しかし、これらのエージェントの能力を体系的に評価するための包括的なベンチマークは、いまだに存在しない。
このギャップを埋めるために、私たちはDeepResearch Benchという100のPhDレベルの研究タスクからなるベンチマークを紹介します。
DRAの評価は本質的に複雑で、労働集約的である。
そこで我々は,人間の判断と強く一致した2つの新しい手法を提案する。
1つ目は, 適応基準付き参照ベース手法で, 生成された研究報告の質を評価する。
その他のフレームワークは、DRAの効果的な引用数と全体的な引用精度を評価することにより、DRAの情報検索と収集能力を評価するために導入された。
我々はDeepResearch Benchとこれらのフレームワークの主要なコンポーネントをhttps://github.com/Ayanami0730/deep_research_benchでオープンソース化しました。
関連論文リスト
- Deep Research Comparator: A Platform For Fine-grained Human Annotations of Deep Research Agents [30.401980824941003]
本稿では,ディープリサーチエージェントを評価するための総合的なフレームワークを提供するDeep Research Comparatorを紹介する。
ユーザクエリが与えられた場合、プラットフォームは2つの異なるエージェントからの最終的なレポートと、生成中の中間ステップを表示する。
アノテーションは、サイドバイサイド比較に基づいて最終レポートの全体的な品質を評価することができる。
論文 参考訳(メタデータ) (2025-07-07T21:35:09Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge [34.672897171399775]
エージェント検索システムは、ウェブを自律的に閲覧し、情報を合成し、包括的な引用支援の回答を返す。
Mind2Web 2は、1000時間以上の人的労働力で構築された130の現実的で高品質で長期にわたるタスクのベンチマークである。
本手法は,木構造設計に基づくタスク固有の判断エージェントを構築し,回答の正しさとソース属性の両方を自動的に評価する。
論文 参考訳(メタデータ) (2025-06-26T17:32:50Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z) - Deep Research Agents: A Systematic Examination And Roadmap [79.04813794804377]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research [25.368303145176554]
DeepResearchGymはオープンソースのサンドボックスで、検索APIと、ディープリサーチシステムのベンチマークのための厳格な評価プロトコルを組み合わせる。
このAPIは大規模な公開Webコーパス、すなわちClueWeb22とFineWebをインデックスし、最先端の高密度検索器と、DikANNによる近接検索を使用する。
一般的な商用APIよりも低レイテンシを実現し、実行中の安定したドキュメントランキングを確保し、研究用に自由に利用できる。
論文 参考訳(メタデータ) (2025-05-25T18:16:13Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments [20.498100965239818]
我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-04-04T04:41:28Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。