論文の概要: RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure
- arxiv url: http://arxiv.org/abs/2512.22560v1
- Date: Sat, 27 Dec 2025 11:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.112796
- Title: RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure
- Title(参考訳): RollArt: 分散インフラストラクチャによるエージェントRLトレーニングのスケーリング
- Authors: Wei Gao, Yuheng Zhao, Tianyuan Wu, Shaopan Xiong, Weixun Wang, Dakai An, Lunxi Cao, Dilxat Muhtar, Zichen Liu, Haizhou Zhao, Ju Huang, Siran Yang, Yongbin Li, Wenbo Su, Jiamang Wang, Lin Qu, Bo Zheng, Wei Wang,
- Abstract要約: エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
- 参考スコア(独自算出の注目度): 49.88201789074532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic Reinforcement Learning (RL) enables Large Language Models (LLMs) to perform autonomous decision-making and long-term planning. Unlike standard LLM post-training, agentic RL workloads are highly heterogeneous, combining compute-intensive prefill phases, bandwidth-bound decoding, and stateful, CPU-heavy environment simulations. We argue that efficient agentic RL training requires disaggregated infrastructure to leverage specialized, best-fit hardware. However, naive disaggregation introduces substantial synchronization overhead and resource underutilization due to the complex dependencies between stages. We present RollArc, a distributed system designed to maximize throughput for multi-task agentic RL on disaggregated infrastructure. RollArc is built on three core principles: (1) hardware-affinity workload mapping, which routes compute-bound and bandwidth-bound tasks to bestfit GPU devices, (2) fine-grained asynchrony, which manages execution at the trajectory level to mitigate resource bubbles, and (3) statefulness-aware computation, which offloads stateless components (e.g., reward models) to serverless infrastructure for elastic scaling. Our results demonstrate that RollArc effectively improves training throughput and achieves 1.35-2.05\(\times\) end-to-end training time reduction compared to monolithic and synchronous baselines. We also evaluate RollArc by training a hundreds-of-billions-parameter MoE model for Qoder product on an Alibaba cluster with more than 3,000 GPUs, further demonstrating RollArc scalability and robustness. The code is available at https://github.com/alibaba/ROLL.
- Abstract(参考訳): エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
通常のLLMポストトレーニングとは異なり、エージェントRLワークロードは非常に異種であり、計算集約型プリフィルフェーズ、帯域幅限定デコーディング、ステートフルなCPU重環境シミュレーションを組み合わせる。
エージェントRLの効率的なトレーニングには、特殊なベストフィットハードウェアを活用するために、分散インフラストラクチャが必要である、と我々は主張する。
しかし、単純な分解は、ステージ間の複雑な依存関係のため、かなりの同期オーバーヘッドとリソースの未利用をもたらす。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
RollArcは、(1)計算バウンドおよび帯域幅バウンドタスクをGPUデバイスに最適にルーティングするハードウェア・アフィニティ・ワークロードマッピング、(2)軌道レベルの実行を管理してリソースバブルを緩和する微粒化非同期、(3)ステートフルネス・アウェアな計算、(3)ステートレスコンポーネント(例えば報酬モデル)をエラスティックスケーリングのためにサーバーレスインフラストラクチャにオフロードする3つのコア原理に基づいて構築されている。
この結果から,RollArcはトレーニングスループットを効果的に向上し,モノリシックおよび同期ベースラインと比較して1.35-2.05\(\times\)のエンドツーエンドトレーニング時間短縮を実現した。
また、3000以上のGPUを持つAlibabaクラスタ上で、Qoder製品のための数百のパラメータMOEモデルをトレーニングし、RollArcのスケーラビリティと堅牢性を実証することで、RollArcを評価する。
コードはhttps://github.com/alibaba/ROLLで公開されている。
関連論文リスト
- AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs [24.96730768606278]
異種対応非同期RLトレーニングシステムであるAReaL-Hexを提案する。
ヘテロジニアスGPU上でロールアウト生成とポリシモデルのトレーニングを実行する方法を、効果的にスケジュールする。
最大1.50倍のトレーニングスループットと1.46倍のトレーニングコストの削減を提供する。
論文 参考訳(メタデータ) (2025-11-02T04:17:30Z) - RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony [78.70328630805041]
ROLL Flashは、ROLLを拡張し、非同期RLポストトレーニングをネイティブにサポートするシステムである。
ROLL Flashは同期RLポストトレーニングよりもリソース利用とスケーラビリティを著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-10-13T12:41:27Z) - AgentRL: Scaling Agentic Reinforcement Learning with a Multi-Turn, Multi-Task Framework [76.96794548655292]
大規模言語モデル(LLM)は、オンラインインタラクションを通じて学習できる汎用エージェントの構築への関心が高まっている。
マルチターンでLLMエージェントをトレーニングするために強化学習(RL)を適用することで、スケーラブルなインフラストラクチャと安定したトレーニングアルゴリズムが欠如しているため、マルチタスク設定は依然として困難である。
本稿では、スケーラブルなマルチターンマルチタスクエージェントRLトレーニングのためのAgentRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-05T13:40:01Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Efficient Parallel Reinforcement Learning Framework using the Reactor
Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文 参考訳(メタデータ) (2023-12-07T21:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。