論文の概要: How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1
- arxiv url: http://arxiv.org/abs/2602.19526v1
- Date: Mon, 23 Feb 2026 05:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.687845
- Title: How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1
- Title(参考訳): ディープリサーチエージェントのトレーニング方法 : 検索R1におけるプロンプト,リワード,ポリシー最適化
- Authors: Yinuo Xu, Shuo Lu, Jianjie Cheng, Meng Wang, Qianlong Xie, Xingxing Wang, Ran He, Jian Liang,
- Abstract要約: ディープリサーチエージェントは、多ラウンド検索と意思決定指向生成を通じて、知識集約的なタスクに取り組む。
我々は3つの分離された次元(プロンプトテンプレート、報酬関数、ポリシー最適化)に沿って体系的な研究を行う。
本研究は, 1) 高速思考テンプレートは, 先行作業で使用したスロー思考テンプレートよりも安定性と性能が向上し, 2) 回答回避によるトレーニング崩壊により, F1 ベースの報酬は EM を過小評価し, 最終的に EM を上回り, アクションレベルのペナルティを取り入れることで緩和できることを示した。
- 参考スコア(独自算出の注目度): 34.39666907043139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Research agents tackle knowledge-intensive tasks through multi-round retrieval and decision-oriented generation. While reinforcement learning (RL) has been shown to improve performance in this paradigm, its contributions remain underexplored. To fully understand the role of RL, we conduct a systematic study along three decoupled dimensions: prompt template, reward function, and policy optimization. Our study reveals that: 1) the Fast Thinking template yields greater stability and better performance than the Slow Thinking template used in prior work; 2) the F1-based reward underperforms the EM due to training collapse driven by answer avoidance; this can be mitigated by incorporating action-level penalties, ultimately surpassing EM; 3) REINFORCE outperforms PPO while requiring fewer search actions, whereas GRPO shows the poorest stability among policy optimization methods. Building on these insights, we then introduce Search-R1++, a strong baseline that improves the performance of Search-R1 from 0.403 to 0.442 (Qwen2.5-7B) and 0.289 to 0.331 (Qwen2.5-3B). We hope that our findings can pave the way for more principled and reliable RL training strategies in Deep Research systems.
- Abstract(参考訳): ディープリサーチエージェントは、多ラウンド検索と意思決定指向生成を通じて、知識集約的なタスクに取り組む。
強化学習(RL)は、このパラダイムの性能を向上させることが示されているが、その貢献は未解明のままである。
RLの役割を十分に理解するために、我々は3つの分離された次元(プロンプトテンプレート、報酬関数、ポリシー最適化)に沿って体系的な研究を行う。
私たちの研究は、こう明らかにしています。
1) 高速思考テンプレートは,先行作業で使用するスロー思考テンプレートよりも安定性と性能が向上する。
2) F1に基づく報酬は,回答回避によって引き起こされる訓練崩壊によりEMを過小評価し,最終的にEMを超越した行動レベルの罰則を取り入れることで緩和することができる。
3)REINFORCEは検索動作の少ないPPOよりも優れており,GRPOはポリシー最適化手法の中で最も安定性が低い。
これらの知見に基づいて、検索-R1++を導入し、検索-R1のパフォーマンスを0.403から0.442(Qwen2.5-7B)、0.289から0.331(Qwen2.5-3B)に改善する。
我々は、より原理的で信頼性の高いRLトレーニング戦略をディープリサーチシステムに道を開くことができることを願っている。
関連論文リスト
- Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation [21.08814504507274]
準最適探索行動は、オーバーサーチやアンダーサーチなど、広く存在する。
現在のトレーニング方法は、通常、RLフレームワークの成果ベースの報酬に依存するが、これらの非効率に対処するために必要なきめ細かい制御が欠如している。
我々は、RLトレーニングに詳細な知識に基づくプロセス報酬を組み込んだトレーニング手法であるHiPRAGを紹介する。
論文 参考訳(メタデータ) (2025-10-09T05:13:10Z) - DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search [53.27052683356095]
我々はモンテカルロ木探索を直接RLVRトレーニングに統合するフレームワークであるDeepSearchを紹介する。
推論時にのみツリー検索に依存する既存のメソッドとは対照的に、DeepSearchは構造化された検索をトレーニングループに埋め込む。
コントリビューションには,(1)検索ツリー全体にわたって有望なノードを優先するグローバルフロンティア選択戦略,(2)監督のための確実なパスを識別するエントロピーベースのガイダンスによる選択,(3)効率的なソリューションキャッシングによる適応的リプレイバッファトレーニングなどが含まれている。
論文 参考訳(メタデータ) (2025-09-29T20:00:29Z) - Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。
批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。