論文の概要: Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents
- arxiv url: http://arxiv.org/abs/2510.14967v1
- Date: Thu, 16 Oct 2025 17:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:15.001732
- Title: Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents
- Title(参考訳): 情報ゲインに基づくポリシー最適化:マルチターンLDMエージェントの簡便かつ効果的なアプローチ
- Authors: Guoqing Wang, Sunhao Dai, Guangze Ye, Zeyu Gan, Wei Yao, Yong Deng, Xiaofeng Wu, Zhenzhe Ying,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
- 参考スコア(独自算出の注目度): 28.145430029174577
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language model (LLM)-based agents are increasingly trained with reinforcement learning (RL) to enhance their ability to interact with external environments through tool use, particularly in search-based settings that require multi-turn reasoning and knowledge acquisition. However, existing approaches typically rely on outcome-based rewards that are only provided at the final answer. This reward sparsity becomes particularly problematic in multi-turn settings, where long trajectories exacerbate two critical issues: (i) advantage collapse, where all rollouts receive identical rewards and provide no useful learning signals, and (ii) lack of fine-grained credit assignment, where dependencies between turns are obscured, especially in long-horizon tasks. In this paper, we propose Information Gain-based Policy Optimization (IGPO), a simple yet effective RL framework that provides dense and intrinsic supervision for multi-turn agent training. IGPO models each interaction turn as an incremental process of acquiring information about the ground truth, and defines turn-level rewards as the marginal increase in the policy's probability of producing the correct answer. Unlike prior process-level reward approaches that depend on external reward models or costly Monte Carlo estimation, IGPO derives intrinsic rewards directly from the model's own belief updates. These intrinsic turn-level rewards are combined with outcome-level supervision to form dense reward trajectories. Extensive experiments on both in-domain and out-of-domain benchmarks demonstrate that IGPO consistently outperforms strong baselines in multi-turn scenarios, achieving higher accuracy and improved sample efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、強化学習(RL)を用いて、ツールの使用、特に多ターン推論と知識獲得を必要とする検索ベースの設定を通じて、外部環境と対話する能力を高めるために、ますます訓練されている。
しかし、既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
この報酬幅は、長い軌道が2つの重要な問題を悪化させるマルチターン設定において特に問題となる。
一 すべてのロールアウトが同一の報酬を受け取り、有用な学習信号を提供しない有利な崩壊
(二)特に長期タスクにおいて、ターン間の依存関係が曖昧になる、きめ細かい信用割当の欠如。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
IGPOは、各インタラクションを、基礎的真実に関する情報を取得する段階的なプロセスとしてモデル化し、ターンレベルの報酬を、ポリシーの正解の確率の限界的な増加として定義する。
外部報酬モデルやコストのかかるモンテカルロ推定に依存する従来のプロセスレベルの報酬アプローチとは異なり、IGPOはモデル自身の信念更新から直接本質的な報酬を導き出す。
これらの内在的なターンレベルの報酬は、結果レベルの監督と組み合わせて、密度の高い報酬軌道を形成する。
ドメイン内ベンチマークとドメイン外ベンチマークの両方での大規模な実験により、IGPOはマルチターンシナリオにおいて強いベースラインを一貫して上回り、精度の向上とサンプル効率の向上を実現している。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization [13.475938754147625]
Tool-Integrated Reasoning (TIR)で強化されたLarge Language Models (LLM)は、反復的に計画し、外部ツールを呼び、返却された情報を統合して、複雑な長期的推論タスクを解決する。
エージェント強化学習(Agentic RL)は、ツール・インタラクションの完全な軌跡よりも、そのようなモデルを最適化する。
1)バイナリ0-1検証信号のようなスパースで非インストラクティブな報酬は、中間ステップの限られたガイダンスと緩やかな収束を与える。
本稿では,PRS(Progressive Reward Shaping)とVSPO(Value-based Sampling Policy Optimization)の2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-12-08T11:59:25Z) - Empowering Multi-Turn Tool-Integrated Reasoning with Group Turn Policy Optimization [20.004150645050537]
Group Turn Policy Optimization (GTPO) は、多ターンツール統合推論タスクにおける大規模言語モデル(LLM)のトレーニング用に設計された、新しい強化学習アルゴリズムである。
GTPOは、各ターンに対してきめ細かいフィードバックを提供するターンレベルの報酬割り当て、リターンベースの利点推定、自己監督型報酬形成という3つの重要なイノベーションを導入している。
総合評価の結果、GTPOは様々な推論ベンチマークでGRPOを平均3.0%上回っていることがわかった。
論文 参考訳(メタデータ) (2025-11-18T19:01:16Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Reward Design [35.544075583073685]
マルチターンRLアルゴリズムとエージェント応用のためのテキストターンレベルの報酬設計に関する最初の体系的研究について述べる。
我々は、多ターン推論強化検索エージェントのケーススタディを行い、検証可能とLCM-as-judgeの2種類のターンレベルの報酬を慎重に設計する。
マルチターン探索タスクの実験により、適切に設計されたターンレベルの報酬を組み込むことで、RLアルゴリズムは軌道レベルの報酬でベースライン法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-05-17T04:09:46Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。