論文の概要: RAPO: Expanding Exploration for LLM Agents via Retrieval-Augmented Policy Optimization
- arxiv url: http://arxiv.org/abs/2603.03078v1
- Date: Tue, 03 Mar 2026 15:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.853188
- Title: RAPO: Expanding Exploration for LLM Agents via Retrieval-Augmented Policy Optimization
- Title(参考訳): RAPO:Retrieval-Augmented Policy OptimizationによるLLMエージェントの拡張探索
- Authors: Siwei Zhang, Yun Xiong, Xi Chen, Zi'an Jia, Renhong Huang, Jiarong Xu, Jiawei Zhang,
- Abstract要約: エージェント強化学習(Agentic RL)は,大規模言語モデルベース(LLM)エージェントにおいて顕著な可能性を示している。
本稿では、学習中の探索を明示的に拡張する検索を導入した新しいRLフレームワークである検索型ポリシー最適化(RAPO)を提案する。
RAPOは、3つのエージェント推論タスクにわたる14のデータセットの平均ゲインを+5.0%達成し、トレーニング効率は1.2倍向上した。
- 参考スコア(独自算出の注目度): 29.421185758698908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic Reinforcement Learning (Agentic RL) has shown remarkable potential in large language model-based (LLM) agents. These works can empower LLM agents to tackle complex tasks via multi-step, tool-integrated reasoning. However, an inherent limitation of existing Agentic RL methods is their reliance on a pure on-policy paradigm for exploration, restricting exploration to the agent's self-generated outputs and preventing the discovery of new reasoning perspectives for further improvement. While recent efforts incorporate auxiliary off-policy signals to enhance exploration, they typically utilize full off-policy trajectories for trajectory-level policy estimation, overlooking the necessity for the fine-grained, step-level exploratory dynamics within agentic rollout. In this paper, we revisit exploration in Agentic RL and propose Retrieval-Augmented Policy Optimization (RAPO), a novel RL framework that introduces retrieval to explicitly expand exploration during training. To achieve this, we decompose the Agentic RL training process into two phases: (i) Hybrid-policy Agentic Rollout, and (ii) Retrieval-aware Policy Optimization. Specifically, we propose a Hybrid-policy Agentic Rollout strategy, which allows the agents to continuously reason over the retrieved off-policy step-level traces. It dynamically extends the reasoning receptive field of agents, enabling broader exploration conditioned on external behaviors. Subsequently, we introduce the Retrieval-aware Policy Optimization mechanism, which calibrates the policy gradient estimation with retrieval reward and importance shaping, stabilizing training and prioritizing retrieval-illuminating exploration. Extensive experiments show that RAPO achieves an +5.0% average gain on fourteen datasets across three agentic reasoning tasks, while delivering 1.2x faster training efficiency.
- Abstract(参考訳): エージェント強化学習(Agentic RL)は,大規模言語モデルベース(LLM)エージェントにおいて顕著な可能性を示している。
これらの作業により、LLMエージェントは多段階のツール統合推論によって複雑なタスクに取り組むことができる。
しかしながら、既存のエージェントRL法の本質的な制限は、純粋に政治パラダイムに依存し、エージェントの自己生成出力への探索を制限し、さらなる改善のための新たな推論視点の発見を防ぐことである。
近年の取り組みには、探索を強化するための補助的な外部信号が含まれているが、典型的には、エージェントロールアウト内のきめ細かいステップレベルの探索ダイナミクスの必要性を見越して、軌道レベルの政策推定に完全な外部軌跡を利用する。
本稿では,エージェントRLにおける探索を再考し,学習中の探索を明示的に拡張する新しいRLフレームワークであるRetrieval-Augmented Policy Optimization (RAPO)を提案する。
これを実現するため、エージェントRLトレーニングプロセスを2つのフェーズに分割する。
一 ハイブリッド・ポリティクス・エージェント・ロールアウト及び
(二)検索対応政策最適化
具体的には,提案するハイブリッド・プライシック・エージェント・ロールアウト戦略により,抽出したオフ・ポリティック・ステップレベルのトレースをエージェントが連続的に推論することができる。
エージェントの推論受容領域を動的に拡張し、外部の振る舞いに合わせた広い探索を可能にする。
次に、検索報酬と重要度形成によるポリシー勾配推定を校正し、トレーニングを安定化し、検索照明探索を優先順位付けする検索型ポリシー最適化機構を導入する。
大規模な実験により、RAPOは3つのエージェント推論タスクにわたる14のデータセットの平均利得を+5.0%達成し、トレーニング効率は1.2倍向上した。
関連論文リスト
- How to Train Your Deep Research Agent? Prompt, Reward, and Policy Optimization in Search-R1 [34.39666907043139]
ディープリサーチエージェントは、多ラウンド検索と意思決定指向生成を通じて、知識集約的なタスクに取り組む。
我々は3つの分離された次元(プロンプトテンプレート、報酬関数、ポリシー最適化)に沿って体系的な研究を行う。
本研究は, 1) 高速思考テンプレートは, 先行作業で使用したスロー思考テンプレートよりも安定性と性能が向上し, 2) 回答回避によるトレーニング崩壊により, F1 ベースの報酬は EM を過小評価し, 最終的に EM を上回り, アクションレベルのペナルティを取り入れることで緩和できることを示した。
論文 参考訳(メタデータ) (2026-02-23T05:33:17Z) - Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning [41.90621652673528]
エージェントLLMを学習するためのカリキュラムベースの自己アニメーション学習(SIL)レシピであるSPEARを提案する。
具体的には,本手法は,本質的な報奨を生かして,技術レベルの探究を促進するためのカリキュラムを取り入れている。
さらにトレーニングを安定させるために、リプレイバッファでの経験の利点を再検討し、潜在的ポリシードリフトに対処する。
論文 参考訳(メタデータ) (2025-09-26T17:20:38Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。