論文の概要: A$^2$TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping
- arxiv url: http://arxiv.org/abs/2605.06200v1
- Date: Thu, 07 May 2026 13:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.813587
- Title: A$^2$TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping
- Title(参考訳): A$^2$TGPO:適応型ターンレベルクリッピングによるエージェントターングループポリシー最適化
- Authors: Dingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang,
- Abstract要約: エージェント型大規模言語モデル(LLM)の強化学習は、スパースな軌道レベルの結果報酬に依存している。
A$2$TGPO (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping) を提案する。
- 参考スコア(独自算出の注目度): 16.192937389387982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning for agentic large language models (LLMs) typically relies on a sparse, trajectory-level outcome reward, making it difficult to evaluate the contribution of individual tool-calls within multi-turn interactions. Existing approaches to such process credit assignment either depend on separate external process reward models that introduce additional consumption, or tree-based structural rollout that merely redistributes the outcome signal while constraining trajectory diversity. A promising alternative leverages the per-turn change in the policy's predicted probability of the ground-truth, termed Information Gain (IG), as an intrinsic process signal without an external evaluator. However, prior work on leveraging IG signals within the RL training loop faces three systematic challenges: normalizing across turns that face heterogeneous positional contexts can distort the relative standing of individual turns, accumulating a variable number of terms causes advantage magnitudes to drift with trajectory depth, and a fixed clipping range governs policy updates identically for turns with vastly different IG signals. In this paper, we propose A$^2$TGPO (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping), which retains IG as the intrinsic signal but re-designs how it is normalized, accumulated, and consumed: (i) turn-group normalization: normalizes IG within each (prompt, turn-index) group so that each turn is compared only against peers at the same interaction depth; (ii) variance-rescaled discounted accumulation: divides cumulative normalized IG by square root of accumulated terms to keep advantage magnitudes comparable across turn positions; and (iii) adaptive turn-level clipping: modulates each turn's clipping range based on its normalized IG, widening the update region for informative turns and narrowing it for uninformative ones.
- Abstract(参考訳): エージェント型大規模言語モデル(LLM)の強化学習は、通常、スパースでトラジェクトリレベルの成果報酬に依存しており、マルチターンインタラクションにおける個々のツールコールの寄与を評価することは困難である。
このようなプロセスのクレジット割り当てに対する既存のアプローチは、追加消費を導入する別のプロセス報酬モデルに依存するか、または、軌道の多様性を制約しながら結果信号を再分配するだけのツリーベースの構造的ロールアウトに依存する。
有望な代替手段は、情報ゲイン (IG) と呼ばれる政策の予測される地道的確率のターンごとの変化を、外部評価器を持たない本質的なプロセス信号として活用する。
しかし、RLトレーニングループにおけるIG信号の活用に関する先行研究は、3つの体系的な課題に直面している: ターン間の正規化 対向する不均一な位置コンテキストは個々のターンの相対的な立位を歪め、可変数の項を蓄積することで軌道深度でドリフトする有利な大きさを生じさせ、固定クリッピング範囲は、非常に異なるIG信号を持つターンに対するポリシー更新を同一に管理する。
本稿では,A$^2$TGPO (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping)を提案する。
(i)ターン群正規化:各(prompt, turn-index)グループ内でIGを正規化し、各ターンが同一の相互作用深さのピアに対してのみ比較されるようにする。
(二)分散再スケール割引累積:累積正規化IGを累積項の平方根で分割し、回転位置に匹敵する有利度を維持する。
3)適応型ターンレベルクリッピング:正規化IGに基づいて各ターンのクリッピング範囲を変調し、インフォメーションターンのために更新領域を広げ、非情報ターンのために絞り込む。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Why GRPO Needs Normalization: A Local-Curvature Perspective on Adaptive Gradients [9.932325888357488]
Group Relative Policy Optimization (GRPO) は、Reinforcement Learning (RL)アルゴリズムのデファクト標準である。
標準偏差正規化は適応勾配を具現化する。
軽度条件下では,GRPOは非正規化REINFORCEよりも厳格に収束率を向上し,平均的な報酬標準偏差が特徴的であることを示す。
論文 参考訳(メタデータ) (2026-01-30T16:23:43Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - Single-stream Policy Optimization [21.214853668053234]
SPO(Single-stream Policy Optimization)を導入する。
SPOはグループ単位のベースラインを永続的なKL適応値トラッカーに置き換え、バッチ全体にわたってメリットを標準化する。
グループフリーであるため、SPOはより高いスループットと、長い水平またはツール統合された設定で効果的にスケールすることができる。
論文 参考訳(メタデータ) (2025-09-16T16:39:11Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - Deriving Differential Target Propagation from Iterating Approximate
Inverses [91.3755431537592]
本稿では,各層が学習した逆数に依存するターゲット伝搬の特定の形態が,ガウス-ニュートン勾配に基づく近似最適化に対応する更新規則を導出することを示す。
そこで我々は,各層における局所的自動エンコーダに基づく反復計算について検討し,より正確な目標伝搬のインバージョンを実現する。
論文 参考訳(メタデータ) (2020-07-29T22:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。