Fugu-MT 論文翻訳(概要): ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

論文の概要: ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

arxiv url: http://arxiv.org/abs/2603.18815v1
Date: Thu, 19 Mar 2026 12:08:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:06.134416
Title: ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents
Title（参考訳）: ロールアウト・アズ・ア・サービスとしてのプロRLエージェント
Authors: Hao Zhang, Mingjie Liu, Shaokun Zhang, Songyang Han, Jian Hu, Zhenghui Jin, Yuchi Zhang, Shizhe Diao, Ximing Lu, Binfeng Xu, Zhiding Yu, Jan Kautz, Yi Dong,
Abstract要約: ProRL Agentはスケーラブルなインフラストラクチャで、APIサービスを通じて完全なエージェントロールアウトライフサイクルを提供する。 ProRL AgentはNVIDIA NeMo Gymの一部としてオープンソースとして統合されている。
参考スコア（独自算出の注目度）: 75.40987300040632
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-turn LLM agents are increasingly important for solving complex, interactive tasks, and reinforcement learning (RL) is a key ingredient for improving their long-horizon behavior. However, RL training requires generating large numbers of sandboxed rollout trajectories, and existing infrastructures often couple rollout orchestration with the training loop, making systems hard to migrate and maintain. Under the rollout-as-a-service philosophy, we present ProRL Agent , a scalable infrastructure that serves the full agentic rollout lifecycle through an API service. ProRL Agent also provides standardized and extensible sandbox environments that support diverse agentic tasks in rootless HPC settings. We validate ProRL Agent through RL training on software engineering, math, STEM, and coding tasks. ProRL Agent is open-sourced and integrated as part of NVIDIA NeMo Gym.
Abstract（参考訳）: 複雑で対話的なタスクや強化学習(RL)を解く上では,多ターンLDMエージェントがますます重要になってきています。しかし、RLトレーニングは大量のサンドボックス化されたロールアウトトラジェクトリを生成する必要があり、既存のインフラストラクチャはトレーニングループとロールアウトオーケストレーションを結合することが多く、システムの移行とメンテナンスが困難になる。ロールアウト・アズ・ア・サービスという理念の下で、APIサービスを通じてエージェントのロールアウトライフサイクルを完全に提供するスケーラブルなインフラストラクチャであるProRL Agentを紹介します。 ProRL Agentはまた、ルートレスHPC設定で多様なエージェントタスクをサポートする標準化された拡張可能なサンドボックス環境も提供する。我々は、ソフトウェア工学、数学、STEM、コーディングタスクにおけるRLトレーニングを通じて、ProRL Agentを検証する。 ProRL AgentはNVIDIA NeMo Gymの一部としてオープンソースとして統合されている。

関連論文リスト

AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-05T13:40:01Z)
AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文参考訳（メタデータ） (2025-09-10T16:46:11Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文参考訳（メタデータ） (2024-02-29T16:07:22Z)
SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。 SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文参考訳（メタデータ） (2023-06-29T05:16:25Z)
Distributed Reinforcement Learning for Cooperative Multi-Robot Object Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文参考訳（メタデータ） (2020-03-21T00:43:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。