論文の概要: Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.14460v1
- Date: Tue, 18 Nov 2025 13:03:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.122375
- Title: Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning
- Title(参考訳): Agent-R1:End-to-End強化学習による強力なLDMエージェントの訓練
- Authors: Mingyue Cheng, Jie Ouyang, Shuo Yu, Ruiran Yan, Yucong Luo, Zirui Liu, Daoyu Wang, Qi Liu, Enhong Chen,
- Abstract要約: 大規模言語モデル(LLM)は、複雑な問題を解決するために、アクティブな環境相互作用(例えばツールの使用)が可能なエージェントを構築するために、ますます研究されている。
本稿では,まず,マルコフ決定プロセス(MDP)フレームワークを体系的に拡張することにより,LLMエージェントの強化学習方法論を再検討し,解明する。
次に,RL ベースの LLM Agent のためのモジュール型でフレキシブルでユーザフレンドリなトレーニングフレームワークである Agent-R1 を紹介する。
- 参考スコア(独自算出の注目度): 45.88626187315028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly being explored for building Agents capable of active environmental interaction (e.g., via tool use) to solve complex problems. Reinforcement Learning (RL) is considered a key technology with significant potential for training such Agents; however, the effective application of RL to LLM Agents is still in its nascent stages and faces considerable challenges. Currently, this emerging field lacks in-depth exploration into RL approaches specifically tailored for the LLM Agent context, alongside a scarcity of flexible and easily extensible training frameworks designed for this purpose. To help advance this area, this paper first revisits and clarifies Reinforcement Learning methodologies for LLM Agents by systematically extending the Markov Decision Process (MDP) framework to comprehensively define the key components of an LLM Agent. Secondly, we introduce Agent-R1, a modular, flexible, and user-friendly training framework for RL-based LLM Agents, designed for straightforward adaptation across diverse task scenarios and interactive environments. We conducted experiments on Multihop QA benchmark tasks, providing initial validation for the effectiveness of our proposed methods and framework.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑な問題を解決するために、アクティブな環境相互作用(例えばツールの使用)が可能なエージェントを構築するために、ますます研究されている。
強化学習(Reinforcement Learning, RL)は、そのようなエージェントを訓練するための重要な可能性を持つ重要な技術と考えられているが、LLMエージェントにRLを効果的に適用することは、まだ初期段階にあり、かなりの課題に直面している。
現在、この新興分野には、LLM Agentコンテキストに特化してRLアプローチの詳細な調査が欠如しており、この目的のために設計された柔軟で容易に拡張可能なトレーニングフレームワークが不足している。
本稿では,まず,MDPフレームワークを体系的に拡張し,LLMエージェントの重要なコンポーネントを包括的に定義することにより,LLMエージェントの強化学習方法論を再検討し,解明する。
次に,RL ベースの LLM Agent のためのモジュール型でフレキシブルでユーザフレンドリなトレーニングフレームワークである Agent-R1 を紹介する。
我々は,マルチホップQAベンチマークタスクの実験を行い,提案手法とフレームワークの有効性を検証した。
関連論文リスト
- AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Offline Training of Language Model Agents with Functions as Learnable Weights [39.88545362699836]
LLM重みを変更することなくLLM(Large Language Models)エージェントを訓練する新しいパラダイムを提案する。
LLMを利用してエージェントの機能を更新し、ロールバックとアーリーストップという2つの戦略でエージェントトレーニングアルゴリズムを考案するエージェントを開発する。
広範囲な実験により、エージェント訓練パラダイムが代表的LLMエージェントの性能を大幅に改善できることが示される。
論文 参考訳(メタデータ) (2024-02-17T18:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。