論文の概要: Online Process Reward Leanring for Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.19199v2
- Date: Wed, 24 Sep 2025 01:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 11:55:19.851532
- Title: Online Process Reward Leanring for Agentic Reinforcement Learning
- Title(参考訳): エージェント強化学習のためのオンライン・プロセス・リワード学習
- Authors: Xiaoqian Liu, Ke Wang, Yuchuan Wu, Fei Huang, Yongbin Li, Junge Zhang, Jianbin Jiao,
- Abstract要約: 大規模言語モデル(LLM)は、強化学習(RL)を自律的なエージェントとして訓練されることが増えている。
最近の研究は、プロセスの監視をエージェント学習に統合しようと試みているが、バイアスドアノテーションに悩まされている。
エージェントRLの一般的なクレジットアサインメント戦略であるオンライン・プロセス・リワード・ラーニング(OPRL)を紹介する。
- 参考スコア(独自算出の注目度): 92.26560379363492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly trained with reinforcement learning (RL) as autonomous agents that reason and act over long horizons in interactive environments. However, sparse and sometimes unverifiable rewards make temporal credit assignment extremely challenging. Recent work attempts to integrate process supervision into agent learning but suffers from biased annotation, reward hacking, high-variance from overly fine-grained signals or failtures when state overlap is rare. We therefore introduce Online Process Reward Learning (OPRL), a general credit-assignment strategy for agentic RL that integrates seamlessly with standard on-policy algorithms without relying on additional rollouts or explicit step labels. In OPRL, we optimize an implicit process reward model (PRM) alternately with the agent's policy to transform trajectory preferences into implicit step rewards through a trajectory-based DPO objective. These step rewards are then used to compute step-level advantages, which are combined with episode-level advantages from outcome rewards for policy update, creating a self-reinforcing loop. Theoretical findings guarantee that the learned step rewards are consistent with trajectory preferences and act as potential-based shaping rewards, providing bounded gradients to stabilize training. Empirically, we evaluate OPRL on three distinct agent benmarks, including WebShop and VisualSokoban, as well as open-ended social interactions with unverfiable rewards in SOTOPIA. Crucially, OPRL shows superior performance over frontier LLMs and strong RL baselines across domains, achieving state-of-the-art results with higher sample-efficiency and lower variance during training. Further analysis also demonstrates the efficient exploration by OPRL using fewer actions, underscoring its potential for agentic learning in real-world scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、対話的環境における長い地平線を推論し行動する自律的なエージェントとして強化学習(RL)を用いて、ますます訓練されている。
しかし、希少かつ時には検証不能な報酬は、時間的クレジットの割り当てを極めて困難にしている。
最近の研究は、プロセスの監督をエージェント学習に統合しようとするが、バイアスドアノテーション、報酬ハッキング、過度にきめ細かな信号からの高分散、あるいは状態の重複が稀な時に失敗に苦しむ。
そこで我々は,OPRL(Online Process Reward Learning)を導入した。これはエージェントRLの一般的なクレジットアサインメント戦略で,ロールアウトや明示的なステップラベルに頼ることなく,標準的なオンラインアルゴリズムとシームレスに統合する。
OPRLでは,プロセス報酬モデル(PRM)をエージェントのポリシーと交互に最適化し,軌道に基づくDPOの目的を通じて,軌道上の選好を暗黙的なステップ報酬に変換する。
これらのステップ報酬はステップレベルのアドバンテージを計算し、ポリシ更新の成果報酬からエピソードレベルのアドバンテージと組み合わせて、自己強化ループを生成する。
理論的には、学習されたステップ報酬は軌道上の選好と一致し、ポテンシャルに基づくシェーピング報酬として機能し、トレーニングを安定させる境界勾配を与える。
実証的に,WebShop や VisualSokoban を含む3つの異なるエージェントによる OPRL の評価を行った。
重要なことは、OPRLは、フロンティアLLMよりも優れた性能を示し、ドメイン間の強いRLベースラインを示し、トレーニング中のサンプル効率が高く、分散度の低い最先端の結果を達成する。
さらに分析は、OPRLによるより少ないアクションによる効率的な探索を実証し、現実世界のシナリオにおけるエージェント学習の可能性を強調している。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution [9.181156720071547]
強化学習は、複雑な目標志向のタスクを扱うためのトレーニングエージェントの約束である。
フィードバック信号は通常、タスク全体が完了した後でのみ利用可能である。
我々は、最終報酬を段階的な貢献に分解するステップワイドプログレス属性を提案する。
論文 参考訳(メタデータ) (2025-05-27T05:21:04Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。