論文の概要: TSR: Trajectory-Search Rollouts for Multi-Turn RL of LLM Agents
- arxiv url: http://arxiv.org/abs/2602.11767v1
- Date: Thu, 12 Feb 2026 09:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.753285
- Title: TSR: Trajectory-Search Rollouts for Multi-Turn RL of LLM Agents
- Title(参考訳): TSR:LLMエージェントのマルチTurn RLのための軌道探索ロールアウト
- Authors: Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Holger Boche,
- Abstract要約: 本稿では,TSR(Trajectory-Search Rollouts)を提案する。
我々は、最高のN、ビームルックサーチ、PPOとGRPOを組み合わせてTSRをインスタンス化し、最大15%のパフォーマンス向上と、Sokoban、FrozenLake、WebShopタスクでのより安定した学習を1回のトレーニング計算で達成する。
- 参考スコア(独自算出の注目度): 31.795232330674413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in large language models (LLMs) are driving a shift toward using reinforcement learning (RL) to train agents from iterative, multi-turn interactions across tasks. However, multi-turn RL remains challenging as rewards are often sparse or delayed, and environments can be stochastic. In this regime, naive trajectory sampling can hinder exploitation and induce mode collapse. We propose TSR (Trajectory-Search Rollouts), a training-time approach that repurposes test-time scaling ideas for improved per-turn rollout generation. TSR performs lightweight tree-style search to construct high-quality trajectories by selecting high-scoring actions at each turn using task-specific feedback. This improves rollout quality and stabilizes learning while leaving the underlying optimization objective unchanged, making TSR optimizer-agnostic. We instantiate TSR with best-of-N, beam, and shallow lookahead search, and pair it with PPO and GRPO, achieving up to 15% performance gains and more stable learning on Sokoban, FrozenLake, and WebShop tasks at a one-time increase in training compute. By moving search from inference time to the rollout stage of training, TSR provides a simple and general mechanism for stronger multi-turn agent learning, complementary to existing frameworks and rejection-sampling-style selection methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、強化学習(RL)を使用して、タスク間の反復的なマルチターンインタラクションからエージェントを訓練するためのシフトを推進している。
しかし、報酬が不足したり遅れたりすることが多く、環境が確率的であるため、マルチターンRLは依然として困難である。
この状態において、ナイーブな軌道サンプリングは、悪用を妨げ、モード崩壊を引き起こす。
本稿では,TSR(Trajectory-Search Rollouts)を提案する。
TSRは、タスク固有のフィードバックを用いて各ターンでハイスコア動作を選択することで、高品質なトラジェクトリを構築するために、軽量なツリースタイルの探索を行う。
これにより、ロールアウトの品質が向上し、基礎となる最適化目標を変更せずに学習を安定化する。
PPOとGRPOを組み合わせ、最大15%のパフォーマンス向上とSokoban、FrozenLake、WebShopタスクの安定した学習を1回のトレーニング計算で行う。
推論時間からトレーニングのロールアウト段階に移行することで、TSRはより強力なマルチターンエージェント学習のためのシンプルで一般的なメカニズム、既存のフレームワークの補完、拒絶サンプリングスタイルの選択方法を提供する。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [2.743898388459522]
深層強化学習(RL)では、学習速度は安定性と性能の両方に重大な影響を及ぼすが、環境と政策が進化するにつれて、トレーニング中に最適な価値がシフトする。
標準崩壊スケジューラは単調収束を仮定し、しばしばこれらのダイナミクスと不一致し、早めまたは遅れた調整をもたらす。
LRRLは、学習手順ではなく、政策性能に基づいて動的に学習率を選択するメタ学習手法である。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。