論文の概要: Reinforcement Learning Foundations for Deep Research Systems: A Survey
- arxiv url: http://arxiv.org/abs/2509.06733v1
- Date: Mon, 08 Sep 2025 14:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.18707
- Title: Reinforcement Learning Foundations for Deep Research Systems: A Survey
- Title(参考訳): ディープ・リサーチ・システムのための強化学習基盤:サーベイ
- Authors: Wenjun Li, Zhi Chen, Jingru Lin, Hannan Cao, Wei Han, Sheng Liang, Zhi Zhang, Kuicai Dong, Dexun Li, Chen Zhang, Yong Liu,
- Abstract要約: この調査は、深層研究システムのRL基盤に初めて焦点をあてたものである。
i)データ合成とキュレーション、(ii) 安定性、サンプル効率、長期コンテキストハンドリング、報酬と信用設計、多目的最適化、およびマルチモーダル統合、(iii) エージェントRLトレーニングシステムとフレームワークをカバーするエージェント研究のためのRLメソッドである。
- 参考スコア(独自算出の注目度): 31.57262766437479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep research systems, agentic AI that solve complex, multi-step tasks by coordinating reasoning, search across the open web and user files, and tool use, are moving toward hierarchical deployments with a Planner, Coordinator, and Executors. In practice, training entire stacks end-to-end remains impractical, so most work trains a single planner connected to core tools such as search, browsing, and code. While SFT imparts protocol fidelity, it suffers from imitation and exposure biases and underuses environment feedback. Preference alignment methods such as DPO are schema and proxy-dependent, off-policy, and weak for long-horizon credit assignment and multi-objective trade-offs. A further limitation of SFT and DPO is their reliance on human defined decision points and subskills through schema design and labeled comparisons. Reinforcement learning aligns with closed-loop, tool-interaction research by optimizing trajectory-level policies, enabling exploration, recovery behaviors, and principled credit assignment, and it reduces dependence on such human priors and rater biases. This survey is, to our knowledge, the first dedicated to the RL foundations of deep research systems. It systematizes work after DeepSeek-R1 along three axes: (i) data synthesis and curation; (ii) RL methods for agentic research covering stability, sample efficiency, long context handling, reward and credit design, multi-objective optimization, and multimodal integration; and (iii) agentic RL training systems and frameworks. We also cover agent architecture and coordination, as well as evaluation and benchmarks, including recent QA, VQA, long-form synthesis, and domain-grounded, tool-interaction tasks. We distill recurring patterns, surface infrastructure bottlenecks, and offer practical guidance for training robust, transparent deep research agents with RL.
- Abstract(参考訳): 複雑なマルチステップタスクを解決するエージェントAIであるディープリサーチシステムは、推論をコーディネートし、オープンなWebとユーザファイルを検索し、ツールの使用をすることで、Planner、Coordinator、Executorによる階層的なデプロイメントに向かっている。
実際には、スタック全体をエンドツーエンドでトレーニングすることは現実的ではないため、ほとんどの作業は、検索、ブラウジング、コードといったコアツールに接続された単一のプランナーを訓練する。
SFTはプロトコルの忠実さを付与するが、模倣や露出バイアスに悩まされ、環境フィードバックを過小評価する。
DPOのような優先アライメント手法は、スキーマやプロキシ依存、オフポリティ、ロングホライゾンクレジットの割り当てや多目的トレードオフに対して弱い。
SFTとDPOのさらなる制限は、スキーマ設計とラベル付き比較による人間の決定ポイントとサブスキルへの依存である。
強化学習は、軌道レベルのポリシーを最適化し、探索、回復行動、原則化された信用割り当てを可能にすることで、クローズドループ、ツール・インタラクションの研究と整合し、そのような人間の先入観やレーダバイアスへの依存を減らす。
この調査は、私たちの知る限り、深層研究システムのRL基盤に初めて焦点をあてたものです。
DeepSeek-R1以降の作業を3つの軸に沿って体系化する。
i) データ合成及びキュレーション
二 安定度、サンプル効率、長期コンテキストハンドリング、報酬及び信用設計、多目的最適化及びマルチモーダル統合に関するエージェント研究のためのRL方法
三 エージェントRL訓練システム及びフレームワーク
エージェントアーキテクチャとコーディネーション、および最近のQA、VQA、ロングフォーム合成、ドメイングラウンドのツール-インタラクションタスクなど、評価とベンチマークについても取り上げる。
我々は、繰り返しパターン、表面インフラストラクチャボトルネックを蒸留し、RLを用いた堅牢で透明な深層研究エージェントのトレーニングのための実践的なガイダンスを提供する。
関連論文リスト
- SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - SoftPipe: A Soft-Guided Reinforcement Learning Framework for Automated Data Preparation [10.764970149373845]
我々は,厳格な制約をソフトガイダンスのパラダイムに置き換える,新しいRLフレームワークであるSoftPipeを紹介した。
我々は、SoftPipeがパイプラインの品質を最大13.9%改善し、2.8$times$既存の方法よりも高速な収束を実現することを実証した。
論文 参考訳(メタデータ) (2025-07-18T07:43:22Z) - Decoupled Planning and Execution: A Hierarchical Reasoning Framework for Deep Search [30.988785260110248]
HiRAは、戦略的な計画と専門的な実行を分離する階層的なフレームワークである。
提案手法では,複雑な探索タスクを集中サブタスクに分解し,各サブタスクを外部ツールと推論機能を備えたドメイン固有エージェントに割り当てる。
4つの複雑なクロスモーダルなディープ・サーチ・ベンチマークの実験により、HiRAは最先端のRAGとエージェント・ベース・システムを大きく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-03T14:18:08Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z) - Intelligent Offloading in Vehicular Edge Computing: A Comprehensive Review of Deep Reinforcement Learning Approaches and Architectures [9.21746609806009]
インテリジェントトランスポーテーションシステム(ITS)の複雑さは、エッジサーバ、車両ノード、UAVなどの外部インフラストラクチャへの計算オフロードに大きな関心を惹き付けている。
深部強化学習(DRL)による車両エッジコンピューティング(VEC)用オフロードの最近の進歩
学習パラダイム(シングルエージェント、マルチエージェントなど)、システムアーキテクチャ(集中型、分散型、階層型)、最適化目標(レイテンシ、エネルギー、公正性など)に基づいて、既存の作業の分類と比較を行う。
論文 参考訳(メタデータ) (2025-02-10T19:02:20Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。