論文の概要: Co-Evolution of Policy and Internal Reward for Language Agents
- arxiv url: http://arxiv.org/abs/2604.03098v1
- Date: Fri, 03 Apr 2026 15:21:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.508012
- Title: Co-Evolution of Policy and Internal Reward for Language Agents
- Title(参考訳): 言語エージェントのための政策と内部報酬の共進化
- Authors: Xinyu Wang, Hanwei Wu, Jingwei Song, Shuyuan Zhang, Jiayi Zhang, Fanqi Kong, Tung Sum Thomas Kwok, Xiao-Wen Chang, Yuyu Luo, Chenglin Wu, Bang Liu,
- Abstract要約: 大規模言語モデル(LLM)エージェントは環境と相互作用して学習するが、長期訓練はスパースと遅延報酬によってボトルネックに残っている。
本稿では,推論時指導と訓練時監督の両方をサポートする言語エージェントに対する自己生成型内部報酬であるセルフガイドを提案する。
- 参考スコア(独自算出の注目度): 37.41307226473692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents learn by interacting with environments, but long-horizon training remains fundamentally bottlenecked by sparse and delayed rewards. Existing methods typically address this challenge through post-hoc credit assignment or external reward models, which provide limited guidance at inference time and often separate reward improvement from policy improvement. We propose Self-Guide, a self-generated internal reward for language agents that supports both inference-time guidance and training-time supervision. Specifically, the agent uses Self-Guide as a short self-guidance signal to steer the next action during inference, and converts the same signal into step-level internal reward for denser policy optimization during training. This creates a co-evolving loop: better policy produces better guidance, and better guidance further improves policy as internal reward. Across three agent benchmarks, inference-time self-guidance already yields clear gains, while jointly evolving policy and internal reward with GRPO brings further improvements (8\%) over baselines trained solely with environment reward. Overall, our results suggest that language agents can improve not only by collecting more experience, but also by learning to generate and refine their own internal reward during acting and learning.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは環境と相互作用して学習するが、長期訓練はスパースと遅延報酬によって基本的にボトルネックとなる。
既存の方法は、通常、ポストホックのクレジット代入または外部報酬モデルを通じてこの問題に対処し、推論時に限られたガイダンスを提供し、しばしば報酬改善と政策改善を分離する。
本稿では,推論時指導と訓練時監督の両方をサポートする言語エージェントに対する自己生成型内部報酬であるセルフガイドを提案する。
具体的には、エージェントは、短い自己誘導信号としてセルフガイドを使用して、推論中に次のアクションを操縦し、トレーニング中により密集したポリシー最適化のために、同じ信号をステップレベルの内部報酬に変換する。
より良いポリシーはより良いガイダンスを生み出し、より良いガイダンスは内部報酬としてポリシーをさらに改善します。
3つのベンチマークで、推論時の自己指導は、すでに明確な利得を得ており、GRPOとの共同進化政策と内部報酬は、環境報酬のみで訓練されたベースラインよりも、さらなる改善(8倍)をもたらす。
以上の結果から,言語エージェントは,経験を多く集めるだけでなく,行動や学習中に自己の内的報酬を生成・改善することで,改善できる可能性が示唆された。
関連論文リスト
- Agentic Policy Optimization via Instruction-Policy Co-Evolution [44.74237684380034]
INSPOは、命令-政治共進化のための新しいフレームワークである。
強化学習ループの動的コンポーネントとして命令最適化を統合する。
実験では、INSPOは計算オーバーヘッドを極端に増加させるだけで、かなりの性能向上を達成する。
論文 参考訳(メタデータ) (2025-12-01T17:56:29Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation [7.054214377609925]
強化学習(RL)は、様々な領域で顕著な成功を収めている。
複雑なタスクに対する効果的なポリシーの訓練は依然として難しい。
既存のトレーニングボトルネックを軽減するアプローチは、2つのカテゴリに分類される。
論文 参考訳(メタデータ) (2025-05-27T03:40:02Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。