論文の概要: SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees
- arxiv url: http://arxiv.org/abs/2602.06554v1
- Date: Fri, 06 Feb 2026 09:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.337861
- Title: SeeUPO: Sequence-Level Agentic-RL with Convergence Guarantees
- Title(参考訳): SeeUPO: 収束保証付きシークエンスレベルエージェントRL
- Authors: Tianyi Hu, Qingxu Fu, Yanxi Chen, Zhaoyang Liu, Bolin Ding,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)ベースのAIエージェントを訓練するための主要なパラダイムとして登場した。
既存のバックボーンRLアルゴリズムには、エージェントシナリオにおけるコンバージェンス保証が欠如している。
本研究では,マルチターンインタラクションに対する収束保証を備えた批判のないアプローチであるSeeeUPOを提案する。
- 参考スコア(独自算出の注目度): 33.46730273409721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has emerged as the predominant paradigm for training large language model (LLM)-based AI agents. However, existing backbone RL algorithms lack verified convergence guarantees in agentic scenarios, especially in multi-turn settings, which can lead to training instability and failure to converge to optimal policies. In this paper, we systematically analyze how different combinations of policy update mechanisms and advantage estimation methods affect convergence properties in single/multi-turn scenarios. We find that REINFORCE with Group Relative Advantage Estimation (GRAE) can converge to the globally optimal under undiscounted conditions, but the combination of PPO & GRAE breaks PPO's original monotonic improvement property. Furthermore, we demonstrate that mainstream backbone RL algorithms cannot simultaneously achieve both critic-free and convergence guarantees in multi-turn scenarios. To address this, we propose SeeUPO (Sequence-level Sequential Update Policy Optimization), a critic-free approach with convergence guarantees for multi-turn interactions. SeeUPO models multi-turn interaction as sequentially executed multi-agent bandit problems. Through turn-by-turn sequential policy updates in reverse execution order, it ensures monotonic improvement and convergence to global optimal solution via backward induction. Experiments on AppWorld and BFCL v4 demonstrate SeeUPO's substantial improvements over existing backbone algorithms: relative gains of 43.3%-54.6% on Qwen3-14B and 24.1%-41.9% on Qwen2.5-14B (averaged across benchmarks), along with superior training stability.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)ベースのAIエージェントを訓練するための主要なパラダイムとして登場した。
しかし、既存のバックボーンRLアルゴリズムはエージェントシナリオ、特にマルチターン設定において、確立された収束保証を欠いているため、トレーニングの不安定性と最適なポリシーに収束できない可能性がある。
本稿では,ポリシー更新機構の異なる組み合わせが,単一/複数ターンシナリオにおける収束特性にどのように影響するかを系統的に解析する。
ReINFORCE with Group Relative Advantage Estimation (GRAE) can converge to the global optimal under undiscounted conditions, but the combination of PPO and GRAE is breaks PPO's original monotonic improvement properties。
さらに,主流のバックボーンRLアルゴリズムは,マルチターンシナリオにおいて,批判なしと収束保証の両方を同時に達成できないことを示す。
そこで本研究では,マルチターンインタラクションに対する収束保証を伴う批判のないアプローチであるSequence-level Sequential Update Policy Optimizationを提案する。
SeeUPOは、連続的に実行されるマルチエージェントバンディット問題としてマルチターン相互作用をモデル化する。
逐次的なポリシー更新を逆実行順序でターンバイターンすることで、モノトニックな改善と、後方誘導によるグローバルな最適解への収束を保証する。
AppWorldとBFCL v4の実験では、Qwen3-14Bでは43.3%-54.6%、Qwen2.5-14Bでは24.1%-41.9%、トレーニング安定性が向上した。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Orchestrating Tokens and Sequences: Dynamic Hybrid Policy Optimization for RLVR [31.43482175098666]
Reinforcement Learning with Verifiable Rewards (RLVR)は,大規模言語モデルを推論タスクで最適化するための,有望なフレームワークを提供する。
既存のRLVRアルゴリズムは様々な粒度に重点を置いており、それぞれに相補的な強度と制限がある。
本稿では, GRPO と GSPO を単一のクリッピングサロゲート対象にブリッジする動的ハイブリッドポリシー最適化 (DHPO) を提案する。
論文 参考訳(メタデータ) (2026-01-09T07:57:40Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Multi-Agent Trust Region Policy Optimisation: A Joint Constraint Approach [17.48210470289556]
Heterogeneous-Agent Trust Region Policy Optimization (HATRPO) は、Kulback-Leibler (KL) の分散を用いて、訓練の安定化を図る。
各エージェントを同じKL閾値に割り当てると、特に不均一な設定において、遅くて局所的に最適な更新につながる可能性がある。
エージェント間のKL分散しきい値の割当には,グローバルなKL制約下でのしきい値割り当てを最適化するKKT法であるHATRPO-Wと,改善に基づくエージェントの優先順位付けを行うgreedyアルゴリズムであるHATRPO-Gの2つの方法を提案する。
論文 参考訳(メタデータ) (2025-08-14T04:48:46Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。