論文の概要: Step-DeepResearch Technical Report
- arxiv url: http://arxiv.org/abs/2512.20491v3
- Date: Thu, 25 Dec 2025 08:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.824265
- Title: Step-DeepResearch Technical Report
- Title(参考訳): ステップディープリサーチ技術報告
- Authors: Chen Hu, Haikuo Du, Heng Wang, Lin Lin, Mingrui Chen, Peng Liu, Ruihang Miao, Tianchi Yue, Wang You, Wei Ji, Wei Yuan, Wenjin Deng, Xiaojian Yuan, Xiaoyun Zhang, Xiangyu Liu, Xikai Liu, Yanming Xu, Yicheng Cao, Yifei Zhang, Yongyao Wang, Yubo Shu, Yurong Zhang, Yuxiang Zhang, Zheng Gong, Zhichao Chang, Binyan Li, Dan Ma, Furong Jia, Hongyuan Wang, Jiayu Liu, Jing Bai, Junlan Liu, Manjiao Liu, Na Wang, Qiuping Wu, Qinxin Du, Shiwei Li, Wen Sun, Yifeng Gong, Yonglin Chen, Yuling Zhao, Yuxuan Lin, Ziqi Ren, Zixuan Wang, Aihu Zhang, Brian Li, Buyun Ma, Kang An, Li Xie, Mingliang Li, Pan Li, Shidong Yang, Xi Chen, Xiaojia Liu, Yuchu Luo, Yuan Song, YuanHao Ding, Yuanwei Liang, Zexi Li, Zhaoning Zhang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu,
- Abstract要約: コスト効率のよいエンドツーエンドエージェントである Step-DeepResearch を紹介する。
我々は、計画とレポート作成を強化するために、アトミック能力に基づくデータ合成戦略を提案する。
中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
- 参考スコア(独自算出の注目度): 90.50586290399683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLMs shift toward autonomous agents, Deep Research has emerged as a pivotal metric. However, existing academic benchmarks like BrowseComp often fail to meet real-world demands for open-ended research, which requires robust skills in intent recognition, long-horizon decision-making, and cross-source verification. To address this, we introduce Step-DeepResearch, a cost-effective, end-to-end agent. We propose a Data Synthesis Strategy Based on Atomic Capabilities to reinforce planning and report writing, combined with a progressive training path from agentic mid-training to SFT and RL. Enhanced by a Checklist-style Judger, this approach significantly improves robustness. Furthermore, to bridge the evaluation gap in the Chinese domain, we establish ADR-Bench for realistic deep research scenarios. Experimental results show that Step-DeepResearch (32B) scores 61.4% on Scale AI Research Rubrics. On ADR-Bench, it significantly outperforms comparable models and rivals SOTA closed-source models like OpenAI and Gemini DeepResearch. These findings prove that refined training enables medium-sized models to achieve expert-level capabilities at industry-leading cost-efficiency.
- Abstract(参考訳): LLMが自律エージェントへと移行するにつれ、Deep Researchは重要な指標として現れてきた。
しかしながら、BrowseCompのような既存の学術ベンチマークは、意図認識、長期的意思決定、およびクロスソース検証において堅牢なスキルを必要とする、オープンソースの研究に対する現実的な要求を満たすことができないことが多い。
これを解決するために、コスト効率の良いエンドツーエンドエージェントであるStep-DeepResearchを紹介します。
エージェント訓練からSFT, RLまで, 段階的な学習経路と合わせて, プランニングとレポート作成の強化を目的とした, アトミック能力に基づくデータ合成戦略を提案する。
Checklistスタイルの審査員によって強化され、このアプローチはロバスト性を大幅に改善する。
さらに,中国における評価ギャップを埋めるため,現実的な深層研究シナリオのためのADR-Benchを構築した。
実験の結果、Step-DeepResearch (32B) はスケールAI研究ラグビーで61.4%のスコアを示している。
ADR-Benchでは、同等のモデルと、OpenAIやGemini DeepResearchといったSOTAのクローズドソースモデルよりも大幅に優れています。
これらの結果から, 高度化訓練により, 中規模モデルでは, 業界主導のコスト効率において, 専門家レベルの能力を実現することが可能であることが示唆された。
関連論文リスト
- A Hierarchical Tree-based approach for creating Configurable and Static Deep Research Agent (Static-DRA) [0.0]
本稿では,階層木に基づく静的ワークフローに基づく新しいソリューションである静的ディープリサーチエージェント(Static-DRA)を紹介する。
コアコントリビューションは、DepthとBreadthという2つのユーザチューニング可能なパラメータの統合である。
エージェントのアーキテクチャは、スーパーバイザ、インディペンデント、およびWorkerエージェントで構成され、効果的なマルチホップ情報検索を促進する。
論文 参考訳(メタデータ) (2025-12-03T15:37:13Z) - DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research [152.2148664328137]
ディープ・リサーチ・モデルは、多段階の研究を行い、長文でよく理解された回答を生成する。
ほとんどのオープンディープリサーチモデルは、検証可能な報酬を伴う強化学習を通じて、短い形式のQAタスクで訓練されている。
我々は、オープンエンドで長期のディープリサーチのために直接訓練された最初のオープンモデルであるDeep Research Tulu (DR Tulu-8B)を開発した。
論文 参考訳(メタデータ) (2025-11-24T18:35:54Z) - IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction [107.49922328855025]
IterResearchは、マルコフ決定過程として長期研究を再構築する、新しい反復的深層研究パラダイムである。
6つのベンチマークで平均+14.5ppの既存のオープンソースエージェントよりも大幅に改善されている。
これは効果的なプロンプト戦略として機能し、ロングホライゾンタスクにおけるReActよりも19.2ppのフロンティアモデルを改善する。
論文 参考訳(メタデータ) (2025-11-10T17:30:08Z) - Understanding DeepResearch via Reports [41.60038455664918]
DeepResearchは、高度な推論とマルチツール統合を通じて専門家レベルの研究を行う、変革的なAIパラダイムである。
これらのシステムを評価することは、オープンな研究シナリオと、独立した機能に焦点を当てた既存のベンチマークのため、依然として極めて難しい。
DeepResearch-ReportEvalは、DeepResearchシステムを最も代表的なアウトプットで評価するための総合的なフレームワークである。
論文 参考訳(メタデータ) (2025-10-09T07:03:43Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。
ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。
本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T13:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。