論文の概要: AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework
- arxiv url: http://arxiv.org/abs/2510.04206v1
- Date: Sun, 05 Oct 2025 13:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.51822
- Title: AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework
- Title(参考訳): AgentRL: マルチターンマルチタスクフレームワークによるエージェント強化学習のスケーリング
- Authors: Hanchen Zhang, Xiao Liu, Bowen Lv, Xueqiao Sun, Bohao Jing, Iat Long Iong, Zhenyu Hou, Zehan Qi, Hanyu Lai, Yifan Xu, Rui Lu, Hongning Wang, Jie Tang, Yuxiao Dong,
- Abstract要約: 大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。
マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。
本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 76.96794548655292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have sparked growing interest in building generalist agents that can learn through online interactions. However, applying reinforcement learning (RL) to train LLM agents in multi-turn, multi-task settings remains challenging due to lack of scalable infrastructure and stable training algorithms. In this work, we present the AgentRL framework for scalable multi-turn, multi-task agentic RL training. On the infrastructure side, AgentRL features a fully-asynchronous generation-training pipeline for efficient multi-turn RL. To support heterogeneous environment development in multi-task RL, we design a unified function-call based API interface, containerized environment development, and a centralized controller. On the algorithm side, we propose cross-policy sampling to encourage model exploration in multi-turn settings and task advantage normalization to stabilize multi-task training. Experiments show that AgentRL, trained on open LLMs across five agentic tasks, significantly outperforms GPT-5, Clause-Sonnet-4, DeepSeek-R1, and other open-source LLM agents. Multi-task training with AgentRL matches the best results among all task-specific models. AgentRL is open-sourced at https://github.com/THUDM/AgentRL. The algorithm and framework are adopted in building \textsc{\href{https://autoglm.zhipuai.cn}{AutoGLM}}.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。
しかし、マルチターンでのLLMエージェントのトレーニングには強化学習(RL)を適用しているため、スケーラブルなインフラストラクチャや安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。
本稿では,スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのエージェントRLフレームワークを提案する。
インフラ面では、AgentRLは効率的なマルチターンRLのための完全非同期生成訓練パイプラインを備えている。
マルチタスクRLにおける異種環境開発を支援するため,統合された関数呼び出しベースのAPIインターフェース,コンテナ化された環境開発,集中型コントローラを設計する。
アルゴリズム側では,マルチターン設定におけるモデル探索の促進とマルチタスクトレーニングの安定化のためのタスクアドバンス正規化を提案する。
GPT-5、Claus-Sonnet-4、DeepSeek-R1、およびその他のオープンソースのLLMエージェントよりもはるかに優れていた。
AgentRLによるマルチタスクトレーニングは、すべてのタスク固有のモデルの中で最高の結果と一致します。
AgentRLはhttps://github.com/THUDM/AgentRLでオープンソース化されている。
このアルゴリズムとフレームワークは、textsc{\href{https://autoglm.zhipuai.cn}{AutoGLM}}の構築に採用されている。
関連論文リスト
- Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - Agent Lightning: Train ANY AI Agents with Reinforcement Learning [24.13422767414729]
我々は,任意のAIエージェントに対して,強化学習(RL)に基づくLarge Language Models(LLM)のトレーニングを可能にするフレームワークであるAgens Lightningを提案する。
エージェント実行をマルコフ決定プロセスとして定式化することにより、統一データインターフェースを定義し、クレジット代入モジュールを含む階層的RLアルゴリズムLightningRLを提案する。
システム設計のために、トレーニング・エージェント・デアグリゲーションアーキテクチャを導入し、エージェント・オブザーバビリティ・フレームワークをエージェント・ランタイムに導入する。
論文 参考訳(メタデータ) (2025-08-05T17:50:13Z) - AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents [25.735754822676277]
言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。
強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。
AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T10:22:36Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。