Fugu-MT 論文翻訳(概要): DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

論文の概要: DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

arxiv url: http://arxiv.org/abs/2504.03160v4
Date: Thu, 17 Apr 2025 04:46:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 12:32:10.869249
Title: DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments
Title（参考訳）: DeepResearcher: 実環境における強化学習によるディープリサーチのスケールアップ
Authors: Yuxiang Zheng, Dayuan Fu, Xiangkun Hu, Xiaojie Cai, Lyumanshan Ye, Pengrui Lu, Pengfei Liu,
Abstract要約: 我々は、LLMベースのディープリサーチエージェントのエンドツーエンドトレーニングのための、初の総合的なフレームワークであるDeepResearcherを紹介する。固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。オープンドメインの研究タスクに関する大規模な実験は、DeepResearcherがエンジニアリングベースの素早いベースラインよりも最大28.9ポイントの大幅な改善を達成していることを示している。
参考スコア（独自算出の注目度）: 20.498100965239818
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) equipped with web search capabilities have demonstrated impressive potential for deep research tasks. However, current approaches predominantly rely on either manually engineered prompts (prompt engineering-based) with brittle performance or reinforcement learning within controlled Retrieval-Augmented Generation (RAG) environments (RAG-based) that fail to capture the complexities of real-world interaction. In this paper, we introduce DeepResearcher, the first comprehensive framework for end-to-end training of LLM-based deep research agents through scaling reinforcement learning (RL) in real-world environments with authentic web search interactions. Unlike RAG-based approaches that assume all necessary information exists within a fixed corpus, our method trains agents to navigate the noisy, unstructured, and dynamic nature of the open web. We implement a specialized multi-agent architecture where browsing agents extract relevant information from various webpage structures and overcoming significant technical challenges. Extensive experiments on open-domain research tasks demonstrate that DeepResearcher achieves substantial improvements of up to 28.9 points over prompt engineering-based baselines and up to 7.2 points over RAG-based RL agents. Our qualitative analysis reveals emergent cognitive behaviors from end-to-end RL training, including the ability to formulate plans, cross-validate information from multiple sources, engage in self-reflection to redirect research, and maintain honesty when unable to find definitive answers. Our results highlight that end-to-end training in real-world web environments is not merely an implementation detail but a fundamental requirement for developing robust research capabilities aligned with real-world applications. We release DeepResearcher at https://github.com/GAIR-NLP/DeepResearcher.
Abstract（参考訳）: Web検索機能を備えたLarge Language Models (LLMs) は、深い研究課題の可能性を実証している。しかし、現在のアプローチは主に、現実の相互作用の複雑さを捉えるのに失敗するRAG(Retrieval-Augmented Generation)環境において、手動で設計したプロンプト(急速エンジニアリングベース)または強化学習(Retrieval-Augmented Generation)環境(RAGベース)のどちらかに依存している。本稿では,LLMをベースとしたディープリサーチエージェントのエンド・ツー・エンド・エンド・トレーニングのための初の総合的なフレームワークであるDeepResearcherについて紹介する。固定コーパス内にすべての必要な情報が存在すると仮定するRAGベースのアプローチとは異なり、我々の手法はオープンウェブのノイズ、非構造化、動的性質をナビゲートするエージェントを訓練する。我々は,閲覧エージェントが様々なWebページ構造から関連情報を抽出し,重要な技術的課題を克服する,特殊なマルチエージェントアーキテクチャを実装した。オープンドメインの研究タスクに関する大規模な実験では、DeepResearcherはエンジニアリングベースの素早いベースラインよりも最大28.9ポイント、RAGベースのRLエージェントよりも最大7.2ポイントの大幅な改善を達成している。我々の質的分析は、プランを定式化したり、複数の情報源から情報をクロスバリデートしたり、研究をリダイレクトするための自己回帰に従事したり、明確な答えが見つからなかったりといった、エンド・ツー・エンドのRLトレーニングからの創発的な認知行動を明らかにします。実世界のWeb環境におけるエンド・ツー・エンドのトレーニングは、単に実装の詳細ではなく、実世界のアプリケーションと整合した堅牢な研究機能を開発するための基本的な要件である。 DeepResearcherはhttps://github.com/GAIR-NLP/DeepResearcher.comでリリースしています。

関連論文リスト

DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research [152.2148664328137]
ディープ・リサーチ・モデルは、多段階の研究を行い、長文でよく理解された回答を生成する。ほとんどのオープンディープリサーチモデルは、検証可能な報酬を伴う強化学習を通じて、短い形式のQAタスクで訓練されている。我々は、オープンエンドで長期のディープリサーチのために直接訓練された最初のオープンモデルであるDeep Research Tulu (DR Tulu-8B)を開発した。
論文参考訳（メタデータ） (2025-11-24T18:35:54Z)
Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs [7.3517692707289415]
本稿では2つの特殊モデルからなるエージェントシステムであるFathom-DeepResearchを紹介する。ひとつは、ライブWeb検索とターゲットWebページクエリによるエビデンスベースの調査に最適化された、DeepSearchモデルであるFathom-Search-4Bである。 2つ目は、Qwen3-4Bから訓練されたFathom-Synthesizer-4Bである。
論文参考訳（メタデータ） (2025-09-28T22:58:11Z)
WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents [72.28593628378991]
WebResearcherは、マルコフ決定プロセスとしてディープリサーチを再構築する反復的なディープリサーチパラダイムである。 WebResearcherは最先端のパフォーマンスを実現し、フロンティアのプロプライエタリシステムを超えています。
論文参考訳（メタデータ） (2025-09-16T17:57:17Z)
Deep Research: A Survey of Autonomous Research Agents [33.96146020332329]
大規模言語モデル(LLM)の急速な進歩は、複雑なタスクを自律的に実行可能なエージェントシステムの開発を促している。これらの制約を克服するため、深層研究のパラダイムが提案され、エージェントは、Webベースの証拠に根ざした包括的で忠実な分析レポートを生成するために、計画、検索、合成に積極的に従事する。本稿では,計画,質問開発,Web探索,レポート生成の4段階からなるディープリサーチパイプラインの体系的概要について述べる。
論文参考訳（メタデータ） (2025-08-18T09:26:14Z)
WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent [68.3311163530321]
Deep ResearchのようなWebエージェントは認知能力を示しており、高度に難解な情報検索問題を解決することができる。このようなエージェントは知覚、論理、知識においてより強力な推論能力を必要とするため、マルチモーダルディープリサーチは非常に困難である。本稿では,視覚言語推論機能を備えた多モードディープリサーチエージェントであるWebWatcherを紹介する。
論文参考訳（メタデータ） (2025-08-07T18:03:50Z)
WebSailor: Navigating Super-human Reasoning for Web Agent [72.5231321118689]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。 WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回っている。
論文参考訳（メタデータ） (2025-07-03T12:59:07Z)
From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文参考訳（メタデータ） (2025-06-23T17:27:19Z)
DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文参考訳（メタデータ） (2025-06-13T13:17:32Z)
Pangu DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning [79.26661332815465]
情報検索は反復的証拠収集と反省的推論を要求するが、大きな言語モデル(LLM)は、オープンウェブの質問に答えることに苦慮している。既存の手法は静的なプロンプトルールやウィキペディアベースのコーパスと検索環境によるトレーニングに依存している。オープンワールドのインターネット環境における情報探索行動を促進するために設計された最初のデータセットであるWebPuzzleを紹介する。
論文参考訳（メタデータ） (2025-05-30T08:15:39Z)
WebDancer: Towards Autonomous Information Seeking Agency [69.33360019344083]
エージェントシステムの最近の進歩は、自律的な多段階研究の可能性を強調している。データ中心およびトレーニング段階の観点からエージェントを探索するエンドツーエンドのエージェント情報を構築するための凝集パラダイムを提案する。我々はこのフレームワークを ReAct, WebDancer に基づいた Web エージェントでインスタンス化する。
論文参考訳（メタデータ） (2025-05-28T17:57:07Z)
SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文参考訳（メタデータ） (2025-05-22T16:05:02Z)
WebThinker: Empowering Large Reasoning Models with Deep Research Capability [60.81964498221952]
WebThinkerは、大規模な推論モデルに、Webを自律的に検索し、Webページをナビゲートし、推論プロセス中に研究レポートをドラフトする権限を与えるディープリサーチエージェントである。また、textbf Autonomous Think-Search-and-Draft戦略を採用しており、モデルがシームレスに推論、情報収集、レポート作成をリアルタイムで行うことができる。我々のアプローチは複雑なシナリオにおけるLEMの信頼性と適用性を高め、より有能で多目的な深層研究システムへの道を開く。
論文参考訳（メタデータ） (2025-04-30T16:25:25Z)
Deep Reinforcement Learning for Automated Web GUI Testing [13.62121897768763]
WebRLEDは複雑なWebアプリケーションのGUIテストを自動化する効果的な方法である。 WebRLEDは、既存の最先端技術(SOTA)と比較して、コード/状態カバレッジと障害検出率が高い。
論文参考訳（メタデータ） (2025-04-27T13:42:30Z)
Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文参考訳（メタデータ） (2025-03-31T08:22:49Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence [2.890656584329591]
Online Decision MetaMorphFormer (ODM)は、自己認識、環境認識、行動計画の実現を目的としている。 ODMは、異なる環境にあるマルチジョイントボディを持つ任意のエージェントに適用することができ、大規模な事前トレーニングデータセットを使用して、さまざまなタイプのタスクでトレーニングすることができる。
論文参考訳（メタデータ） (2024-09-11T15:22:43Z)
WeKnow-RAG: An Adaptive Approach for Retrieval-Augmented Generation Integrating Web Search and Knowledge Graphs [10.380692079063467]
本稿では,Web検索と知識グラフを統合したWeKnow-RAGを提案する。まず,知識グラフの構造化表現と高次ベクトル検索の柔軟性を組み合わせることで,LLM応答の精度と信頼性を向上させる。提案手法は,情報検索の効率と精度を効果的にバランスさせ,全体の検索プロセスを改善する。
論文参考訳（メタデータ） (2024-08-14T15:19:16Z)
Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文参考訳（メタデータ） (2024-05-30T23:20:23Z)
On the Importance of Exploration for Generalization in Reinforcement Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文参考訳（メタデータ） (2023-06-08T18:07:02Z)
A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open Problems [0.0]
強化学習(RL)は、急速に人気が高まっている。高いコストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムである。
論文参考訳（メタデータ） (2022-03-02T20:05:11Z)
How to Train Your Robot with Deep Reinforcement Learning; Lessons We've Learned [111.06812202454364]
本稿では,ロボット深部RLのケーススタディをいくつか紹介する。深部RLにおける一般的な課題と,それらの課題について論じる。また、他の卓越した課題についても概説し、その多くが現実世界のロボティクスの設定に特有のものである。
論文参考訳（メタデータ） (2021-02-04T22:09:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。