論文の概要: DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments
- arxiv url: http://arxiv.org/abs/2504.03160v4
- Date: Thu, 17 Apr 2025 04:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 12:32:10.869249
- Title: DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments
- Title(参考訳): DeepResearcher: 実環境における強化学習によるディープリサーチのスケールアップ
- Authors: Yuxiang Zheng, Dayuan Fu, Xiangkun Hu, Xiaojie Cai, Lyumanshan Ye, Pengrui Lu, Pengfei Liu,
- Abstract要約: 我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
- 参考スコア(独自算出の注目度): 20.498100965239818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) equipped with web search capabilities have demonstrated impressive potential for deep research tasks. However, current approaches predominantly rely on either manually engineered prompts (prompt engineering-based) with brittle performance or reinforcement learning within controlled Retrieval-Augmented Generation (RAG) environments (RAG-based) that fail to capture the complexities of real-world interaction. In this paper, we introduce DeepResearcher, the first comprehensive framework for end-to-end training of LLM-based deep research agents through scaling reinforcement learning (RL) in real-world environments with authentic web search interactions. Unlike RAG-based approaches that assume all necessary information exists within a fixed corpus, our method trains agents to navigate the noisy, unstructured, and dynamic nature of the open web. We implement a specialized multi-agent architecture where browsing agents extract relevant information from various webpage structures and overcoming significant technical challenges. Extensive experiments on open-domain research tasks demonstrate that DeepResearcher achieves substantial improvements of up to 28.9 points over prompt engineering-based baselines and up to 7.2 points over RAG-based RL agents. Our qualitative analysis reveals emergent cognitive behaviors from end-to-end RL training, including the ability to formulate plans, cross-validate information from multiple sources, engage in self-reflection to redirect research, and maintain honesty when unable to find definitive answers. Our results highlight that end-to-end training in real-world web environments is not merely an implementation detail but a fundamental requirement for developing robust research capabilities aligned with real-world applications. We release DeepResearcher at https://github.com/GAIR-NLP/DeepResearcher.
- Abstract(参考訳): Web検索機能を備えたLarge Language Models (LLMs) は、深い研究課題の可能性を実証している。
しかし、現在のアプローチは主に、現実の相互作用の複雑さを捉えるのに失敗するRAG(Retrieval-Augmented Generation)環境において、手動で設計したプロンプト(急速エンジニアリングベース)または強化学習(Retrieval-Augmented Generation)環境(RAGベース)のどちらかに依存している。
本稿では,LLMをベースとしたディープリサーチエージェントのエンド・ツー・エンド・エンド・トレーニングのための初の総合的なフレームワークであるDeepResearcherについて紹介する。
固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。
我々は,閲覧エージェントが様々なWebページ構造から関連情報を抽出し,重要な技術的課題を克服する,特殊なマルチエージェントアーキテクチャを実装した。
オープンドメインの研究タスクに関する大規模な実験では、DeepResearcherはエンジニアリングベースの素早いベースラインよりも最大28.9ポイント、RAGベースのRLエージェントよりも最大7.2ポイントの大幅な改善を達成している。
我々の質的分析は、プランを定式化したり、複数の情報源から情報をクロスバリデートしたり、研究をリダイレクトするための自己回帰に従事したり、明確な答えが見つからなかったりといった、エンド・ツー・エンドのRLトレーニングからの創発的な認知行動を明らかにします。
実世界のWeb環境におけるエンド・ツー・エンドのトレーニングは、単に実装の詳細ではなく、実世界のアプリケーションと整合した堅牢な研究機能を開発するための基本的な要件である。
DeepResearcherはhttps://github.com/GAIR-NLP/DeepResearcher.comでリリースしています。
関連論文リスト
- WebThinker: Empowering Large Reasoning Models with Deep Research Capability [60.81964498221952]
WebThinkerは、大規模な推論モデルに、Webを自律的に検索し、Webページをナビゲートし、推論プロセス中に研究レポートをドラフトする権限を与えるディープリサーチエージェントである。
また、textbf Autonomous Think-Search-and-Draft戦略を採用しており、モデルがシームレスに推論、情報収集、レポート作成をリアルタイムで行うことができる。
我々のアプローチは複雑なシナリオにおけるLEMの信頼性と適用性を高め、より有能で多目的な深層研究システムへの道を開く。
論文 参考訳(メタデータ) (2025-04-30T16:25:25Z) - Deep Reinforcement Learning for Automated Web GUI Testing [13.62121897768763]
WebRLEDは複雑なWebアプリケーションのGUIテストを自動化する効果的な方法である。
WebRLEDは、既存の最先端技術(SOTA)と比較して、コード/状態カバレッジと障害検出率が高い。
論文 参考訳(メタデータ) (2025-04-27T13:42:30Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence [2.890656584329591]
Online Decision MetaMorphFormer (ODM)は、自己認識、環境認識、行動計画の実現を目的としている。
ODMは、異なる環境にあるマルチジョイントボディを持つ任意のエージェントに適用することができ、大規模な事前トレーニングデータセットを使用して、さまざまなタイプのタスクでトレーニングすることができる。
論文 参考訳(メタデータ) (2024-09-11T15:22:43Z) - WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs [10.380692079063467]
本稿では,Web検索と知識グラフを統合したWeKnow-RAGを提案する。
まず,知識グラフの構造化表現と高次ベクトル検索の柔軟性を組み合わせることで,LLM応答の精度と信頼性を向上させる。
提案手法は,情報検索の効率と精度を効果的にバランスさせ,全体の検索プロセスを改善する。
論文 参考訳(メタデータ) (2024-08-14T15:19:16Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open
Problems [0.0]
強化学習(RL)は、急速に人気が高まっている。
高いコストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。
オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムである。
論文 参考訳(メタデータ) (2022-03-02T20:05:11Z) - How to Train Your Robot with Deep Reinforcement Learning; Lessons We've
Learned [111.06812202454364]
本稿では,ロボット深部RLのケーススタディをいくつか紹介する。
深部RLにおける一般的な課題と,それらの課題について論じる。
また、他の卓越した課題についても概説し、その多くが現実世界のロボティクスの設定に特有のものである。
論文 参考訳(メタデータ) (2021-02-04T22:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。