論文の概要: A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.01132v1
- Date: Wed, 01 Oct 2025 17:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.686483
- Title: A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning
- Title(参考訳): 多ターンエージェント強化学習のための実践者ガイド
- Authors: Ruiyi Wang, Prithviraj Ammanabrolu,
- Abstract要約: マルチターン強化学習を通じて,大規模言語モデルをエージェントとして訓練する上で,実際にどのような効果があるのか,どのような効果があるのかを検討する。
デザインスペースを環境、報酬、ポリシーという3つの相互関係の柱に分割します。
これらの知見を,3つの柱にまたがる共同設計を指導する学習レシピに抽出する。
- 参考スコア(独自算出の注目度): 12.179148605060298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study what actually works and what doesn't for training large language models as agents via multi-turn reinforcement learning. Despite rapid progress, existing frameworks and definitions are fragmented, and there is no systematic formulation or analysis of which design choices matter across tasks. We address this gap by first breaking down the design space into three inter-related pillars -- environment, reward, and policy -- and empirically derive a recipe for training LLM agents in situated textual domains. In particular, we test TextWorld and ALFWorld, popular domains for testing situated embodied reasoning, as well as SWE-Gym for more software engineering style tasks. (i) For the environment, we analyze the impacts of task complexity in terms of sizes of the state and action spaces as well as optimal solution length, finding that even simple environments within a domain can provide signal on how well an agent can generalize to more complex tasks. (ii) For the reward, we ablate relative reward sparsity, observing that while dense turn-level rewards accelerate training, performance and stability is highly dependent on the choice of RL algorithm. (iii) And for the agent's policy, we explore the interplay between reward sparsity and biased (PPO, GRPO) and unbiased (RLOO) policy gradient methods in addition to showing how to find the optimal Supervised Fine-tuning (SFT) to RL training ratio given a fixed budget. We distill these findings into a training recipe that guides co-design across the three pillars, facilitating research and practical efforts in multi-turn agentic RL. Code: https://github.com/pearls-lab/meow-tea-taro
- Abstract(参考訳): マルチターン強化学習を通じて,大規模言語モデルをエージェントとして訓練する上で,実際にどのような効果があるのか,どのような効果があるのかを検討する。
急速な進歩にもかかわらず、既存のフレームワークと定義は断片化されており、どの設計選択がタスク全体で重要かという体系的な定式化や分析は存在しない。
設計空間を環境、報酬、ポリシーの3つの柱に分割することで、このギャップに対処します。
特に、私たちはTextWorldとALFWorldをテストしました。このドメインは、配置された推論をテストするために人気のあるドメインであり、ソフトウェアエンジニアリングスタイルのタスクのためにSWE-Gymをテストします。
(i)環境において,状態空間や行動空間のサイズや最適解長の観点からタスクの複雑さの影響を分析し,ドメイン内の単純な環境でさえ,エージェントがより複雑なタスクにいかにうまく一般化できるかのシグナルを得られることを発見した。
(II)報奨は相対的な報酬幅を減らし、高密度なターンレベルの報奨がトレーニングを加速する一方で、性能と安定性はRLアルゴリズムの選択に大きく依存していることを観察する。
3) エージェントの政策では, 報酬の分散度と偏り(PPO, GRPO)と偏り(RLOO)の政策勾配法との相互作用を考察するとともに, 固定予算を付与したRLトレーニング比に対して最適な監督微調整(SFT)を求める方法を示す。
これらの知見を3つの柱にまたがる共同設計を指導し, マルチターンエージェントRLの研究, 実用化に役立てる学習レシピに抽出する。
コード:https://github.com/pearls-lab/meow-tea-taro
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - Reinforcement Learning Foundations for Deep Research Systems: A Survey [31.57262766437479]
この調査は、深層研究システムのRL基盤に初めて焦点をあてたものである。
i)データ合成とキュレーション、(ii) 安定性、サンプル効率、長期コンテキストハンドリング、報酬と信用設計、多目的最適化、およびマルチモーダル統合、(iii) エージェントRLトレーニングシステムとフレームワークをカバーするエージェント研究のためのRLメソッドである。
論文 参考訳(メタデータ) (2025-09-08T14:27:23Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Guiding Multi-agent Multi-task Reinforcement Learning by a Hierarchical Framework with Logical Reward Shaping [16.5526277899717]
本研究の目的は,論理報酬形成を伴う多エージェント協調アルゴリズムを設計することである。
Minecraftのような環境下で様々な種類のタスクで実験が行われてきた。
論文 参考訳(メタデータ) (2024-11-02T09:03:23Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Spatial Reasoning and Planning for Deep Embodied Agents [2.7195102129095003]
この論文は空間的推論と計画タスクのためのデータ駆動手法の開発を探求する。
学習効率、解釈可能性、新しいシナリオ間の伝達可能性の向上に重点を置いている。
論文 参考訳(メタデータ) (2024-09-28T23:05:56Z) - PEAR: Primitive Enabled Adaptive Relabeling for Boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。
プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。
まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。
次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文 参考訳(メタデータ) (2023-06-10T09:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。