Fugu-MT 論文翻訳(概要): How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1

論文の概要: How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1

arxiv url: http://arxiv.org/abs/2602.19526v1
Date: Mon, 23 Feb 2026 05:33:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.687845
Title: How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1
Title（参考訳）: ディープリサーチエージェントのトレーニング方法 : 検索R1におけるプロンプト,リワード,ポリシー最適化
Authors: Yinuo Xu, Shuo Lu, Jianjie Cheng, Meng Wang, Qianlong Xie, Xingxing Wang, Ran He, Jian Liang,
Abstract要約: ディープリサーチエージェントは、多ラウンド検索と意思決定指向生成を通じて、知識集約的なタスクに取り組む。我々は3つの分離された次元(プロンプトテンプレート、報酬関数、ポリシー最適化)に沿って体系的な研究を行う。本研究は, 1) 高速思考テンプレートは, 先行作業で使用したスロー思考テンプレートよりも安定性と性能が向上し, 2) 回答回避によるトレーニング崩壊により, F1 ベースの報酬は EM を過小評価し, 最終的に EM を上回り, アクションレベルのペナルティを取り入れることで緩和できることを示した。
参考スコア（独自算出の注目度）: 34.39666907043139
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Research agents tackle knowledge-intensive tasks through multi-round retrieval and decision-oriented generation. While reinforcement learning (RL) has been shown to improve performance in this paradigm, its contributions remain underexplored. To fully understand the role of RL, we conduct a systematic study along three decoupled dimensions: prompt template, reward function, and policy optimization. Our study reveals that: 1) the Fast Thinking template yields greater stability and better performance than the Slow Thinking template used in prior work; 2) the F1-based reward underperforms the EM due to training collapse driven by answer avoidance; this can be mitigated by incorporating action-level penalties, ultimately surpassing EM; 3) REINFORCE outperforms PPO while requiring fewer search actions, whereas GRPO shows the poorest stability among policy optimization methods. Building on these insights, we then introduce Search-R1++, a strong baseline that improves the performance of Search-R1 from 0.403 to 0.442 (Qwen2.5-7B) and 0.289 to 0.331 (Qwen2.5-3B). We hope that our findings can pave the way for more principled and reliable RL training strategies in Deep Research systems.
Abstract（参考訳）: ディープリサーチエージェントは、多ラウンド検索と意思決定指向生成を通じて、知識集約的なタスクに取り組む。強化学習(RL)は、このパラダイムの性能を向上させることが示されているが、その貢献は未解明のままである。 RLの役割を十分に理解するために、我々は3つの分離された次元(プロンプトテンプレート、報酬関数、ポリシー最適化)に沿って体系的な研究を行う。私たちの研究は、こう明らかにしています。 1) 高速思考テンプレートは,先行作業で使用するスロー思考テンプレートよりも安定性と性能が向上する。 2) F1に基づく報酬は,回答回避によって引き起こされる訓練崩壊によりEMを過小評価し,最終的にEMを超越した行動レベルの罰則を取り入れることで緩和することができる。 3)REINFORCEは検索動作の少ないPPOよりも優れており,GRPOはポリシー最適化手法の中で最も安定性が低い。これらの知見に基づいて、検索-R1++を導入し、検索-R1のパフォーマンスを0.403から0.442(Qwen2.5-7B)、0.289から0.331(Qwen2.5-3B)に改善する。我々は、より原理的で信頼性の高いRLトレーニング戦略をディープリサーチシステムに道を開くことができることを願っている。

関連論文リスト

RAPO: Expanding Exploration for LLM Agents via Retrieval-Augmented Policy Optimization [29.421185758698908]
エージェント強化学習(Agentic RL)は,大規模言語モデルベース(LLM)エージェントにおいて顕著な可能性を示している。本稿では、学習中の探索を明示的に拡張する検索を導入した新しいRLフレームワークである検索型ポリシー最適化(RAPO)を提案する。 RAPOは、3つのエージェント推論タスクにわたる14のデータセットの平均ゲインを+5.0%達成し、トレーニング効率は1.2倍向上した。
論文参考訳（メタデータ） (2026-03-03T15:23:42Z)
Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。 i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文参考訳（メタデータ） (2025-10-13T17:57:15Z)
HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation [21.08814504507274]
準最適探索行動は、オーバーサーチやアンダーサーチなど、広く存在する。現在のトレーニング方法は、通常、RLフレームワークの成果ベースの報酬に依存するが、これらの非効率に対処するために必要なきめ細かい制御が欠如している。我々は、RLトレーニングに詳細な知識に基づくプロセス報酬を組み込んだトレーニング手法であるHiPRAGを紹介する。
論文参考訳（メタデータ） (2025-10-09T05:13:10Z)
DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search [53.27052683356095]
我々はモンテカルロ木探索を直接RLVRトレーニングに統合するフレームワークであるDeepSearchを紹介する。推論時にのみツリー検索に依存する既存のメソッドとは対照的に、DeepSearchは構造化された検索をトレーニングループに埋め込む。コントリビューションには,(1)検索ツリー全体にわたって有望なノードを優先するグローバルフロンティア選択戦略,(2)監督のための確実なパスを識別するエントロピーベースのガイダンスによる選択,(3)効率的なソリューションキャッシングによる適応的リプレイバッファトレーニングなどが含まれている。
論文参考訳（メタデータ） (2025-09-29T20:00:29Z)
Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文参考訳（メタデータ） (2025-08-19T23:41:15Z)
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。 SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback [59.078756231841574]
Critique-GRPOは、自然言語と数値フィードバックを統合して効果的なポリシー最適化を行うオンラインRLフレームワークである。批判-GRPOは、教師付き学習とRLに基づく微調整法を8つの難解な数学、STEM、一般的な推論タスクで一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-06-03T17:39:02Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。 RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文参考訳（メタデータ） (2025-02-10T18:52:04Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)
Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文参考訳（メタデータ） (2020-08-05T07:49:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。