論文の概要: DeepResearch-9K: A Challenging Benchmark Dataset of Deep-Research Agent
- arxiv url: http://arxiv.org/abs/2603.01152v1
- Date: Sun, 01 Mar 2026 15:36:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.538103
- Title: DeepResearch-9K: A Challenging Benchmark Dataset of Deep-Research Agent
- Title(参考訳): DeepResearch-9K:Deep-Research Agentのベンチマークデータセットの整合化
- Authors: Tongzhou Wu, Yuhao Wang, Xinyu Ma, Xiuqiang He, Shuaiqiang Wang, Dawei Yin, Xiangyu Zhao,
- Abstract要約: DeepResearch-9Kは、Deep-Researchシナリオのための大規模で挑戦的なデータセットである。
DeepResearch-R1は、Deep-Researchエージェントのためのオープンソースのトレーニングフレームワークである。
- 参考スコア(独自算出の注目度): 63.52637950356965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep-research agents are capable of executing multi-step web exploration, targeted retrieval, and sophisticated question answering. Despite their powerful capabilities, deep-research agents face two critical bottlenecks: (1) the lack of large-scale, challenging datasets with real-world difficulty, and (2) the absence of accessible, open-source frameworks for data synthesis and agent training. To bridge these gaps, we first construct DeepResearch-9K, a large-scale challenging dataset specifically designed for deep-research scenarios built from open-source multi-hop question-answering (QA) datasets via a low-cost autonomous pipeline. Notably, it consists of (1) 9000 questions spanning three difficulty levels from L1 to L3 (2) high-quality search trajectories with reasoning chains from Tongyi-DeepResearch-30B-A3B, a state-of-the-art deep-research agent, and (3) verifiable answers. Furthermore, we develop an open-source training framework DeepResearch-R1 that supports (1) multi-turn web interactions, (2) different reinforcement learning (RL) approaches, and (3) different reward models such as rule-based outcome reward and LLM-as-judge feedback. Finally, empirical results demonstrate that agents trained on DeepResearch-9K under our DeepResearch-R1 achieve state-of-the-art results on challenging deep-research benchmarks. We release the DeepResearch-9K dataset on https://huggingface.co/datasets/artillerywu/DeepResearch-9K and the code of DeepResearch-R1 on https://github.com/Applied-Machine-Learning-Lab/DeepResearch-R1.
- Abstract(参考訳): ディープリサーチエージェントは、多段階のWeb探索、ターゲット検索、洗練された質問応答を実行することができる。
その強力な能力にもかかわらず、ディープリサーチエージェントは、(1)現実の困難を伴う大規模で挑戦的なデータセットの欠如、(2)データ合成とエージェントトレーニングのためのアクセス可能なオープンソースのフレームワークの欠如、という2つの重大なボトルネックに直面している。
このギャップを埋めるために、私たちはまずDeepResearch-9Kを構築しました。これはオープンソースのマルチホップ質問回答(QA)データセットから、低コストの自律パイプラインを通じて構築されたディープ検索シナリオ用に設計された、大規模な挑戦的なデータセットです。
特に,(1)L1からL3までの3つの難解レベルにまたがる9000の質問,(2)Tongyi-DeepResearch-30B-A3B,(3)最先端のDeep-Researchエージェント,(3)検証可能な回答からなる。
さらに,(1)マルチターンWebインタラクション,(2)異なる強化学習(RL)アプローチ,(3)ルールベースの成果報酬やLM-as-judgeフィードバックなど,さまざまな報酬モデルをサポートするオープンソースのトレーニングフレームワークであるDeepResearch-R1を開発した。
最後に、DeepResearch-R1の下でDeepResearch-9Kでトレーニングされたエージェントが、挑戦的なDeep-Researchベンチマークで最先端の結果を得ることを示す実験結果が得られた。
我々は、https://huggingface.co/datasets/artillerywu/DeepResearch-9Kのデータセットと、https://github.com/Applied-Machine-Learning-Lab/DeepResearch-R1のDeepResearch-R1のコードをリリースした。
関連論文リスト
- AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。
Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。
DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。
AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文 参考訳(メタデータ) (2026-03-04T18:47:26Z) - MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline [26.19213349415094]
マルチモーダル・リサーチ・エージェントの開発を目標とし, 明示的な推論と計画, マルチツール・呼び出し, クロスモーダル・インフォメーション・シンセサイザーの実現を目指す。
1)検索集約型マルチモーダルQAデータの不足,(2)効果的な検索トラジェクトリの欠如,(3)オンライン検索APIによるトレーニングの禁止コストの3つの主な課題を考察する。
この3つの設計により,強力なマルチモーダルディープリサーチエージェントであるMM-DeepResearchを開発した。
論文 参考訳(メタデータ) (2026-03-01T11:13:22Z) - Tongyi DeepResearch Technical Report [111.78446943571782]
Tongyi DeepResearchは、自律的な深層研究機関にインセンティブを与えるため、エンドツーエンドのトレーニングフレームワークを通じて開発されている。
Tongyi DeepResearchは合計35億のパラメータを達成している。
私たちは、コミュニティを強化するためのモデル、フレームワーク、完全なソリューションをオープンソースにしています。
論文 参考訳(メタデータ) (2025-10-28T17:53:02Z) - DeepWideSearch: Benchmarking Depth and Width in Agentic Information Seeking [42.413184411326164]
DeepWideSearchは、情報検索の深さと幅を統合するエージェントを評価するために設計された最初のベンチマークである。
DeepWideSearchでは、エージェントは大量のデータを処理し、それぞれがマルチホップ検索パスに対して深い推論を必要とする。
実験の結果、最先端のエージェントでさえ平均的な成功率は2.39%に過ぎなかった。
論文 参考訳(メタデータ) (2025-10-23T03:28:45Z) - Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs [7.3517692707289415]
本稿では2つの特殊モデルからなるエージェントシステムであるFathom-DeepResearchを紹介する。
ひとつは、ライブWeb検索とターゲットWebページクエリによるエビデンスベースの調査に最適化された、DeepSearchモデルであるFathom-Search-4Bである。
2つ目は、Qwen3-4Bから訓練されたFathom-Synthesizer-4Bである。
論文 参考訳(メタデータ) (2025-09-28T22:58:11Z) - DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL [60.47878242100153]
我々は、ディープサーチエージェントを進化させるためにDeepDiveを提示する。
オープンな知識グラフから複雑で難解な質問を自動的に合成する戦略を提案する。
深層探索によるLLMの長距離推論を強化するために, エンドツーエンドのマルチターン強化学習を適用した。
論文 参考訳(メタデータ) (2025-09-12T17:52:35Z) - HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches [54.65565885083031]
本稿では,階層型RLで学習した階層型エージェントディープ検索フレームワークであるHierSearchを提案する。
低レベルにおいては、ローカルなディープサーチエージェントとWebのディープサーチエージェントがトレーニングされ、対応するドメインから証拠を検索する。
高レベルでは、プランナーエージェントが低レベルのエージェントをコーディネートし、最終回答を提供する。
論文 参考訳(メタデータ) (2025-08-11T15:31:47Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments [20.498100965239818]
我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-04-04T04:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。