論文の概要: T$^2$PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.02178v1
- Date: Mon, 04 May 2026 03:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.121412
- Title: T$^2$PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning
- Title(参考訳): T$^2$PO: 安定多段階エージェント強化学習のための不確かさ誘導探索制御
- Authors: Haixin Wang, Hejie Cui, Chenwei Zhang, Xin Liu, Shuowei Jin, Shijie Geng, Xinyang Zhang, Nasser Zalmout, Zhenyu Shi, Yizhou Sun,
- Abstract要約: Token- and Turn-level Policy Optimization (T$2$PO)は、きめ細かいレベルで探索を明示的に制御する不確実性対応のフレームワークである。
WebShop, ALFWorld, Search QAなど,様々な環境でT$2$POを評価した。
- 参考スコア(独自算出の注目度): 47.366245851156215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in multi-turn reinforcement learning (RL) has significantly improved reasoning LLMs' performances on complex interactive tasks. Despite advances in stabilization techniques such as fine-grained credit assignment and trajectory filtering, instability remains pervasive and often leads to training collapse. We argue that this instability stems from inefficient exploration in multi-turn settings, where policies continue to generate low-information actions that neither reduce uncertainty nor advance task progress. To address this issue, we propose Token- and Turn-level Policy Optimization (T$^2$PO), an uncertainty-aware framework that explicitly controls exploration at fine-grained levels. At the token level, T$^2$PO monitors uncertainty dynamics and triggers a thinking intervention once the marginal uncertainty change falls below a threshold. At the turn level, T$^2$PO identifies interactions with negligible exploration progress and dynamically resamples such turns to avoid wasted rollouts. We evaluate T$^2$PO in diverse environments, including WebShop, ALFWorld, and Search QA, demonstrating substantial gains in training stability and performance improvements with better exploration efficiency. Code is available at: https://github.com/WillDreamer/T2PO.
- Abstract(参考訳): マルチターン強化学習(RL)の最近の進歩は、複雑な対話タスクにおけるLLMの性能の推論を著しく改善している。
微粒な信用割当や軌道フィルタリングなどの安定化技術が進歩しているにもかかわらず、不安定性は広範に存在し、しばしば訓練の崩壊につながる。
この不安定性は、ポリシーが不確実性やタスクの進行を損なうことのない低情報行動を生成し続けるマルチターン環境での非効率な探索に起因している、と我々は主張する。
この問題に対処するために,詳細なレベルで探索を明示的に制御する不確実性を考慮したフレームワークであるToken- and Turn-level Policy Optimization (T$^2$PO)を提案する。
トークンレベルでは、T$^2$POは不確実性ダイナミクスを監視し、限界不確実性変化がしきい値を下回ると思考介入を引き起こす。
ターンレベルでは、T$^2$POは無視可能な探索の進行と相互作用を特定し、そのようなターンを動的に再サンプリングすることで、無駄なロールアウトを避ける。
WebShop, ALFWorld, Search QAなど様々な環境におけるT$^2$POの評価を行い, より優れた探索効率で, トレーニング安定性と性能向上を実現した。
コードは、https://github.com/WillDreamer/T2POで入手できる。
関連論文リスト
- Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents [24.972357127546772]
エントロピー変調政策勾配(Entropy-Modulated Policy Gradients, EMPG)は、段階的不確実性と最終課題結果に基づいて学習信号を再分類するフレームワークである。
EMPGは、確実な正しい行動の更新を増幅し、確実なエラーをペナルティ化し、探索を安定させるために不確実なステップからの更新を減衰する。
論文 参考訳(メタデータ) (2025-09-11T08:50:01Z) - Distributional Actor-Critic Ensemble for Uncertainty-Aware Continuous
Control [13.767812547998735]
不確実性定量化は、現実世界のアプリケーションにおける機械学習における中心的な課題の1つである。
不確かさの解消と評価を同時に行うことは、エージェントの最終的なパフォーマンスを改善するチャンスである。
連続制御タスクに対する不確実性を考慮した強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-27T18:11:04Z) - Robust Reinforcement Learning in Continuous Control Tasks with
Uncertainty Set Regularization [17.322284328945194]
強化学習(Reinforcement Learning, RL)は、環境摂動下での一般化と堅牢性を欠いていると認識されている。
我々は $textbfU$ncertainty $textbfS$et $textbfR$egularizer (USR) という新しい正規化器を提案する。
論文 参考訳(メタデータ) (2022-07-05T12:56:08Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。