論文の概要: ST-PPO: Stabilized Off-Policy Proximal Policy Optimization for Multi-Turn Agents Training
- arxiv url: http://arxiv.org/abs/2511.20718v1
- Date: Tue, 25 Nov 2025 05:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.784692
- Title: ST-PPO: Stabilized Off-Policy Proximal Policy Optimization for Multi-Turn Agents Training
- Title(参考訳): ST-PPO:マルチターンエージェント訓練のための安定化オフポリティ・プロキシ・ポリシー最適化
- Authors: Chenliang Li, Adel Elmahdy, Alex Boyd, Zhongruo Wang, Alfredo Garcia, Parminder Bhatia, Taha Kass-Hout, Cao Xiao, Mingyi Hong,
- Abstract要約: PPOは多ターン対話や推論タスクにおいてトークンレベルでの大規模言語モデル(LLM)のトレーニングに広く採用されている。
ターンレベルの重要度サンプリングとクリッピングバイアス補正の2つの相補的安定化手法を導入する。
実験の結果,ST-PPOとS-PPOは大規模モデルのトレーニングで観測される性能崩壊を一貫して防止することがわかった。
- 参考スコア(独自算出の注目度): 43.4652098588194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: PPO has been widely adopted for training large language models (LLMs) at the token level in multi-turn dialogue and reasoning tasks. However, its performance is often unstable and prone to collapse. Through empirical analysis, we identify two main sources of instability in this setting: (1)~token-level importance sampling, which is misaligned with the natural granularity of multi-turn environments that have distinct turn-level stages, and (2) inaccurate advantage estimates from off-policy samples, where the critic has not learned to evaluate certain state-action pairs, resulting in high-variance gradients and unstable updates. To address these challenges, we introduce two complementary stabilization techniques: (1) turn-level importance sampling, which aligns optimization with the natural structure of multi-turn reasoning, and (2) clipping-bias correction, which normalizes gradients by downweighting unreliable, highly off-policy samples. Depending on how these components are combined, we obtain three variants: Turn-PPO (turn-level sampling only), S-PPO (clipping-bias correction applied to token-level PPO), and ST-PPO (turn-level sampling combined with clipping-bias correction). In our experiments, we primarily study ST-PPO and S-PPO, which together demonstrate how the two stabilization mechanisms address complementary sources of instability. Experiments on multi-turn search tasks across general QA, multi-hop QA, and medical multiple-choice QA benchmarks show that ST-PPO and S-PPO consistently prevent the performance collapses observed in large-model training, maintain lower clipping ratios throughout optimization, and achieve higher task performance than standard token-level PPO. These results demonstrate that combining turn-level importance sampling with clipping-bias correction provides a practical and scalable solution for stabilizing multi-turn LLM agent training.
- Abstract(参考訳): PPOは多ターン対話や推論タスクにおいてトークンレベルでの大規模言語モデル(LLM)のトレーニングに広く採用されている。
しかし、その性能はしばしば不安定であり、崩壊しがちである。
実験的な分析により,(1)異なるターンレベルステージを持つマルチターン環境の自然粒度と一致しない,~トークンレベルの重要度サンプリング,(2)特定の状態-作用ペアの評価を学ばず,高い分散勾配と不安定な更新をもたらす,2つの主要な不安定性源を同定した。
これらの課題に対処するために,(1)多ターン推論の自然な構造と最適化を整合させるターンレベルの重要度サンプリングと,(2)信頼性の低い,非政治的なサンプルを下げて勾配を正規化するクリッピングバイアス補正という2つの相補的な安定化手法を導入する。
これらの成分をどのように組み合わせるかによって、ターンPPO(ターンレベルサンプリングのみ)、S-PPO(トークンレベルPPOに適用されるクリッピングバイアス補正)、ST-PPO(ターンレベルサンプリングとクリッピングバイアス補正)の3つのバリエーションが得られる。
実験では,ST-PPOとS-PPOを主に研究し,2つの安定化機構が相補的不安定の原因にどのように対応しているかを実証した。
一般的なQA, マルチホップQA, 医療マルチチョイスQAベンチマークを用いたマルチターン探索実験により, ST-PPOとS-PPOは, 大容量モデルのトレーニングで観測される性能崩壊を一貫して防止し, 最適化全体を通してクリッピング率を低くし, 標準的なトークンレベルPPOよりも高いタスク性能を達成することを示した。
これらの結果から, ターンレベルの重要度サンプリングとクリッピングバイアス補正を組み合わせることで, マルチターンLDMエージェントトレーニングを安定化するための実用的でスケーラブルなソリューションが得られた。
関連論文リスト
- Soft Adaptive Policy Optimization [67.61886077470528]
強化学習は、大規模言語モデルの推論能力を高める上で、ますます重要な役割を担っている。
GSPOやGRPOのような既存のグループベースのポリシー最適化手法は、ハードクリッピングによってこの問題を軽減する。
ハードクリッピングをスムーズな温度制御ゲートに置き換えるソフト適応ポリシー最適化(SAPO)を提案する。
論文 参考訳(メタデータ) (2025-11-25T14:25:19Z) - VADE: Variance-Aware Dynamic Sampling via Online Sample-Level Difficulty Estimation for Multimodal RL [38.782188833641676]
GRPOやGSPOのようなグループベースのポリシー最適化手法は、マルチモーダルモデルのトレーニングの標準となっている。
グループ内のすべての応答が同じ報酬を受けると、それらは致命的な急激な消滅問題に悩まされる。
textbfVADEは,オンラインサンプルレベルの難易度を用いたサンプリングフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T08:59:54Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents [56.625878022978945]
自律的なエージェントとしての大規模言語モデル(LLM)は、複雑で長期にわたる問題の解決にますます取り組まれている。
直接優先度最適化(DPO)は、正確なクレジット代入には大きすぎる信号を提供するが、ステップレベルのDPOは、しばしば、複数のステップの振る舞いの値をキャプチャするには、筋が通らない。
階層的選好学習(HPL)は、複数の相乗的粒度における選好信号を活用することで、LLMエージェントを最適化する階層的フレームワークである。
論文 参考訳(メタデータ) (2025-09-26T08:43:39Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - A Reinforcement Learning Method for Environments with Stochastic Variables: Post-Decision Proximal Policy Optimization with Dual Critic Networks [2.3453441553817043]
決定後近ポリシー最適化は、先進的な深層強化学習手法である近ポリシー最適化の新しいバリエーションである。
提案手法は,問題の次元を小さくし,値関数推定の精度を高めるために,事後状態と二重批判を取り入れたものである。
論文 参考訳(メタデータ) (2025-04-07T14:56:43Z) - Benchmarking the Reliability of Post-training Quantization: a Particular
Focus on Worst-case Performance [53.45700148820669]
ポストトレーニング量子化(PTQ)は、独自のアーキテクチャやトレーニング手順を変更することなく、ディープニューラルネットワーク(DNN)を圧縮するための一般的な方法である。
その有効性と利便性にもかかわらず、分散シフトやデータノイズといった極端ケースの存在下でのPTQ手法の信頼性は明らかにされていない。
そこで本研究では,様々なPTQ手法を用いてこの問題について検討する。
論文 参考訳(メタデータ) (2023-03-23T02:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。