論文の概要: DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents
- arxiv url: http://arxiv.org/abs/2506.11763v1
- Date: Fri, 13 Jun 2025 13:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.803763
- Title: DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents
- Title(参考訳): DeepResearch Bench: ディープリサーチエージェントの総合ベンチマーク
- Authors: Mingxuan Du, Benfeng Xu, Chiwei Zhu, Xiaorui Wang, Zhendong Mao,
- Abstract要約: DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 30.768405850755602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Research Agents are a prominent category of LLM-based agents. By autonomously orchestrating multistep web exploration, targeted retrieval, and higher-order synthesis, they transform vast amounts of online information into analyst-grade, citation-rich reports--compressing hours of manual desk research into minutes. However, a comprehensive benchmark for systematically evaluating the capabilities of these agents remains absent. To bridge this gap, we present DeepResearch Bench, a benchmark consisting of 100 PhD-level research tasks, each meticulously crafted by domain experts across 22 distinct fields. Evaluating DRAs is inherently complex and labor-intensive. We therefore propose two novel methodologies that achieve strong alignment with human judgment. The first is a reference-based method with adaptive criteria to assess the quality of generated research reports. The other framework is introduced to evaluate DRA's information retrieval and collection capabilities by assessing its effective citation count and overall citation accuracy. We have open-sourced DeepResearch Bench and key components of these frameworks at https://github.com/Ayanami0730/deep_research_bench to accelerate the development of practical LLM-based agents.
- Abstract(参考訳): ディープ・リサーチ・エージェント(Deep Research Agents)は、LDMベースのエージェントの顕著なカテゴリである。
多段階のウェブ探索、ターゲット検索、高次合成を自律的に編成することで、膨大な量のオンライン情報を分析グレードで引用に富んだレポートに変換し、手作業による机の研究時間を数分に短縮する。
しかし、これらのエージェントの能力を体系的に評価するための包括的なベンチマークは、いまだに存在しない。
このギャップを埋めるために、私たちはDeepResearch Benchという100のPhDレベルの研究タスクからなるベンチマークを紹介します。
DRAの評価は本質的に複雑で、労働集約的である。
そこで我々は,人間の判断と強く一致した2つの新しい手法を提案する。
1つ目は, 適応基準付き参照ベース手法で, 生成された研究報告の質を評価する。
その他のフレームワークは、DRAの効果的な引用数と全体的な引用精度を評価することにより、DRAの情報検索と収集能力を評価するために導入された。
我々はDeepResearch Benchとこれらのフレームワークの主要なコンポーネントをhttps://github.com/Ayanami0730/deep_research_benchでオープンソース化しました。
関連論文リスト
- DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research [25.368303145176554]
DeepResearchGymはオープンソースのサンドボックスで、検索APIと、ディープリサーチシステムのベンチマークのための厳格な評価プロトコルを組み合わせる。
このAPIは大規模な公開Webコーパス、すなわちClueWeb22とFineWebをインデックスし、最先端の高密度検索器と、DikANNによる近接検索を使用する。
一般的な商用APIよりも低レイテンシを実現し、実行中の安定したドキュメントランキングを確保し、研究用に自由に利用できる。
論文 参考訳(メタデータ) (2025-05-25T18:16:13Z) - InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments [20.498100965239818]
我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-04-04T04:41:28Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。