論文の概要: Agentic Reinforcement Learning with Implicit Step Rewards
- arxiv url: http://arxiv.org/abs/2509.19199v3
- Date: Sun, 28 Sep 2025 06:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.592881
- Title: Agentic Reinforcement Learning with Implicit Step Rewards
- Title(参考訳): インシシット・ステップ・リワードを用いたエージェント強化学習
- Authors: Xiaoqian Liu, Ke Wang, Yuchuan Wu, Fei Huang, Yongbin Li, Junge Zhang, Jianbin Jiao,
- Abstract要約: 大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
- 参考スコア(独自算出の注目度): 92.26560379363492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly developed as autonomous agents using reinforcement learning (agentic RL) that reason and act in interactive environments. However, sparse and sometimes unverifiable rewards make it extremely challenging to assign credit when training LLM agents that serve as a policy. Recent work attempts to integrate process supervision into RL but suffers from biased annotation, reward hacking, high-variance from overly fine-grained rewards or failtures when state overlap is rare. We therefore introduce implicit step rewards for agentic RL (iStar), a general credit-assignment strategy that integrates seamlessly with standard RL algorithms without relying on additional rollouts or explicit step labels. Particularly, we alternatively optimize an implicit process reward model (PRM) with the policy model to generate implicit step rewards via a trajectory-based DPO objective. Theoretical analysis shows that this learning objective produces a step-wise reward function. Then the implicit step rewards are used to compute step-level advantages, which are combined with trajectory (or episode)-level advantages for policy updates, creating a self-reinforcing training loop. We evaluate our method on three challenging agent benchmarks, including WebShop and VisualSokoban, as well as open-ended social interactions with unverifiable rewards in SOTOPIA. Crucially, iStar shows superior performance over frontier LLMs and strong RL baselines across domains, achieving state-of-the-art results with higher sample-efficiency and training stability. Further analysis also demonstrates efficient exploration by iStar with increased rewards in both step- and episode-level while maintaining fewer steps to achieve task success. Code will be available soon.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、対話的な環境下で行動する強化学習 (agentic RL) を用いて自律的なエージェントとして開発されつつある。
しかし、希少かつ時には検証不能な報酬は、政策として機能するLLMエージェントを訓練する際、クレジットを割り当てることが非常に困難である。
最近の研究は、プロセスの監視をRLに統合しようとするが、バイアスドアノテーション、報酬ハッキング、過度にきめ細かな報酬からの高分散、あるいは状態の重複が稀な場合の失敗に悩まされている。
そこで我々は,新たなロールアウトや明示的なステップラベルに頼ることなく,標準RLアルゴリズムとシームレスに統合する一般的なクレジット割り当て戦略であるエージェントRL(iStar)に対して,暗黙的なステップ報酬を導入する。
特に、政策モデルを用いて暗黙のプロセス報酬モデル(PRM)を最適化し、軌跡に基づくDPO目標を用いて暗黙のステップ報酬を生成する。
理論的解析は、この学習目的がステップワイズ報酬関数を生成することを示している。
次に、暗黙的なステップ報酬を使用してステップレベルのメリットを計算し、方針更新のためのトラジェクトリ(あるいはエピソード)レベルのアドバンテージと組み合わせて、自己強化的なトレーニングループを作成する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
重要な点として、iStarは、フロンティアLLMよりも優れた性能を示し、ドメイン間の強力なRLベースラインを示し、より高いサンプル効率とトレーニング安定性で最先端の結果を達成する。
さらに分析では、ステップレベルとエピソードレベルの両方で報酬が増加し、タスクの成功を達成するためのステップが少なくなるため、iStarによる効率的な探索も実施されている。
コードはまもなく利用可能になる。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution [9.181156720071547]
強化学習は、複雑な目標志向のタスクを扱うためのトレーニングエージェントの約束である。
フィードバック信号は通常、タスク全体が完了した後でのみ利用可能である。
我々は、最終報酬を段階的な貢献に分解するステップワイドプログレス属性を提案する。
論文 参考訳(メタデータ) (2025-05-27T05:21:04Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。