論文の概要: AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.08755v1
- Date: Wed, 10 Sep 2025 16:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.515214
- Title: AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
- Title(参考訳): AgentGym-RL:多段階強化学習による長軸決定のためのLLMエージェントの訓練
- Authors: Zhiheng Xi, Jixuan Huang, Chenyang Liao, Baodai Huang, Honglin Guo, Jiaqi Liu, Rui Zheng, Junjie Ye, Jiazheng Zhang, Wenxiang Chen, Wei He, Yiwen Ding, Guanyu Li, Zehui Chen, Zhengyin Du, Xuesong Yao, Yufei Xu, Jiecao Chen, Tao Gui, Zuxuan Wu, Qi Zhang, Xuanjing Huang, Yu-Gang Jiang,
- Abstract要約: 本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
- 参考スコア(独自算出の注目度): 129.44038804430542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing autonomous LLM agents capable of making a series of intelligent decisions to solve complex, real-world tasks is a fast-evolving frontier. Like human cognitive development, agents are expected to acquire knowledge and skills through exploration and interaction with the environment. Despite advances, the community still lacks a unified, interactive reinforcement learning (RL) framework that can effectively train such agents from scratch -- without relying on supervised fine-tuning (SFT) -- across diverse and realistic environments. To bridge this gap, we introduce AgentGym-RL, a new framework to train LLM agents for multi-turn interactive decision-making through RL. The framework features a modular and decoupled architecture, ensuring high flexibility and extensibility. It encompasses a wide variety of real-world scenarios, and supports mainstream RL algorithms. Furthermore, we propose ScalingInter-RL, a training approach designed for exploration-exploitation balance and stable RL optimization. In early stages, it emphasizes exploitation by restricting the number of interactions, and gradually shifts towards exploration with larger horizons to encourage diverse problem-solving strategies. In this way, the agent develops more diverse behaviors and is less prone to collapse under long horizons. We perform extensive experiments to validate the stability and effectiveness of both the AgentGym-RL framework and the ScalingInter-RL approach. Our agents match or surpass commercial models on 27 tasks across diverse environments. We offer key insights and will open-source the complete AgentGym-RL framework -- including code and datasets -- to empower the research community in developing the next generation of intelligent agents.
- Abstract(参考訳): 複雑な現実世界のタスクを解決するために、一連のインテリジェントな決定を下すことができる自律LLMエージェントの開発は、急速に進化するフロンティアである。
人間の認知発達と同様に、エージェントは環境の探索と相互作用を通じて知識とスキルを獲得することが期待されている。
進歩にもかかわらず、コミュニティには、さまざまな現実的な環境にまたがって、監督された微調整(SFT)に頼ることなく、効果的にこれらのエージェントをスクラッチからトレーニングできる、統一的でインタラクティブな強化学習(RL)フレームワークがない。
このギャップを埋めるため、我々はRLを介して多ターン対話型意思決定のためのLLMエージェントをトレーニングする新しいフレームワークであるAgentGym-RLを紹介した。
このフレームワークはモジュール式で分離されたアーキテクチャを備え、高い柔軟性と拡張性を保証する。
様々な実世界のシナリオを包含し、主流のRLアルゴリズムをサポートする。
さらに,ScalingInter-RLを提案する。ScalingInter-RLは,探索-探索バランスと安定したRL最適化のためのトレーニング手法である。
初期の段階では、相互作用の数を制限することで搾取を強調しており、多様な問題解決戦略を促進するために、より広い地平線での探索へと徐々に移行している。
このようにして、エージェントはより多様な振る舞いを発達させ、長い地平線の下で崩壊する傾向が低い。
我々は、AgentGym-RLフレームワークとScalingInter-RLアプローチの両方の安定性と有効性を検証するための広範な実験を行った。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
私たちは重要な洞察を提供し、次世代のインテリジェントエージェントの開発において研究コミュニティに力を与えるために、AgentGym-RLフレームワーク(コードとデータセットを含む)をオープンソース化します。
関連論文リスト
- The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [104.31926740841128]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは、特殊エージェントをマルチエージェントシステムに自動的に拡張するジェネリックメソッドである。
EvoAgent は LLM エージェントのタスク解決能力を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-06-20T11:49:23Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Learning Efficient Multi-Agent Cooperative Visual Exploration [18.42493808094464]
複数のエージェントによる視覚的屋内探索の課題を考察し、エージェントはできるだけ少ないステップで屋内全領域を探索する必要がある。
我々は、最先端の単一エージェントRLソリューションであるActive Neural SLAM(ANS)を、新しいRLベースのグローバルゴールプランナーであるSpatial Coordination Planner(SCP)を導入してマルチエージェント設定に拡張する。
SCPは、各エージェントの空間情報をエンドツーエンドに活用し、探索効率の高い異なる空間目標に向けて効果的にエージェントを誘導する。
論文 参考訳(メタデータ) (2021-10-12T04:48:10Z) - Room Clearance with Feudal Hierarchical Reinforcement Learning [2.867517731896504]
本稿では,RL研究を軍事分析に有用な方向に進めるためのシナリオ構築ツールとして,新しいシミュレーション環境「it」を紹介した。
そこでは、青いエージェントのチームが建物を通り抜け、すべての部屋が敵のレッドエージェントから取り除かれるようにしなければなりません。
封建的階層型RLのマルチエージェント版を実装し、より上位の指揮官が命令を下級の複数のエージェントに送信するコマンド階層を導入する。
このような方法でタスクを壊すことで、私たちはそれを可能にすることに気付きました。
論文 参考訳(メタデータ) (2021-05-24T15:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。