論文の概要: SkyRL-Agent: Efficient RL Training for Multi-turn LLM Agent
- arxiv url: http://arxiv.org/abs/2511.16108v1
- Date: Thu, 20 Nov 2025 07:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.510774
- Title: SkyRL-Agent: Efficient RL Training for Multi-turn LLM Agent
- Title(参考訳): SkyRL-Agent:マルチターンLDMエージェントのための効率的なRLトレーニング
- Authors: Shiyi Cao, Dacheng Li, Fangzhou Zhao, Shuo Yuan, Sumanth R. Hegde, Connor Chen, Charlie Ruan, Tyler Griggs, Shu Liu, Eric Tang, Richard Liaw, Philipp Moritz, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica,
- Abstract要約: 本稿では,SkyRL-Agentについて紹介する。
効率的な非同期ディスパッチ、軽量ツールの統合、柔軟なバックエンドの相互運用性を提供する。
我々は、Qwen3-32B (24.4% Pass@1)からトレーニングを受けたソフトウェアエンジニアリングエージェントであるSA-SWE-32Bを、純粋に強化学習で訓練する。
- 参考スコア(独自算出の注目度): 63.15417992240217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SkyRL-Agent, a framework for efficient, multi-turn, long-horizon agent training and evaluation. It provides efficient asynchronous dispatching, lightweight tool integration, and flexible backend interoperability, enabling seamless use with existing RL frameworks such as SkyRL-train, VeRL, and Tinker. Using SkyRL-Agent, we train SA-SWE-32B, a software engineering agent trained from Qwen3-32B (24.4% Pass@1) purely with reinforcement learning. We introduce two key components: an optimized asynchronous pipeline dispatcher that achieves a 1.55x speedup over naive asynchronous batching, and a tool-enhanced training recipe leveraging an AST-based search tool to facilitate code navigation, boost rollout Pass@K, and improve training efficiency. Together, these optimizations enable SA-SWE-32B to reach 39.4% Pass@1 on SWE-Bench Verified with more than 2x cost reduction compared to prior models reaching similar performance. Despite being trained solely on SWE tasks, SA-SWE-32B generalizes effectively to other agentic tasks, including Terminal-Bench, BrowseComp-Plus, and WebArena. We further demonstrate SkyRL-Agent's extensibility through case studies on deep research, computer use, and memory agents, each trained using a different training backend.
- Abstract(参考訳): 本稿では,SkyRL-Agentについて紹介する。
効率的な非同期ディスパッチ、軽量なツール統合、フレキシブルなバックエンド相互運用性を提供し、SkyRL-train、VeRL、Tinkerといった既存のRLフレームワークとのシームレスな使用を可能にする。
SkyRL-Agentを使って、Qwen3-32B (24.4% Pass@1)からトレーニングを受けたソフトウェアエンジニアリングエージェントSA-SWE-32Bを、純粋に強化学習で訓練する。
非同期バッチ処理による1.55倍の高速化を実現する最適化された非同期パイプラインディスパッチと、ASTベースの検索ツールを活用してコードナビゲーションを容易にし、Pass@Kをロールアウトし、トレーニング効率を向上させるツール強化のトレーニングレシピである。
これらの最適化により、SA-SWE-32B は SWE-Bench Verified 上で 39.4% Pass@1 に達することができ、以前のモデルに比べて2倍以上のコスト削減が可能となった。
SA-SWE-32BはSWEタスクのみに訓練されているにもかかわらず、ターミナルベンチ、BrowseComp-Plus、WebArenaなど他のエージェントタスクに効果的に一般化されている。
さらに,SkyRL-Agentの拡張性を,深層研究,コンピュータ使用,メモリエージェントのケーススタディを通じて実証する。
関連論文リスト
- AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。
マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。
本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T13:40:01Z) - Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation [65.3648667980258]
視覚言語モデル(VLM)に基づくGUIエージェントは複雑なタスクの自動化を約束するが、強化学習(RL)の適用において大きな課題に直面している。
異種モジュールを高度に非結合的に協調するGUIエージェントのための非結合エージェントRLトレーニングフレームワークであるDARTを提案する。
OSWorldのベンチマークでは、DART-GUI-7Bは42.13%のタスク成功率、14.61%の絶対ゲイン、オープンソースSOTAよりも7.34%高い。
論文 参考訳(メタデータ) (2025-09-28T13:19:20Z) - How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents [38.0441002097771]
DistRLは、モバイルデバイス制御エージェントのオンラインRLファインチューニングの効率を高めるために設計された、新しいフレームワークである。
平均して、DistRLはトレーニング効率を3倍改善し、主要な同期マルチマシンメソッドよりも2.4倍高速なトレーニングデータ収集を可能にする。
論文 参考訳(メタデータ) (2024-10-18T18:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。