論文の概要: PlexRL: Cluster-Level Orchestration of Serviceized LLM Execution for RLVR
- arxiv url: http://arxiv.org/abs/2605.20863v1
- Date: Wed, 20 May 2026 07:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.559884
- Title: PlexRL: Cluster-Level Orchestration of Serviceized LLM Execution for RLVR
- Title(参考訳): PlexRL:RLVRのためのLLMサービス実行のクラスタレベルオーケストレーション
- Authors: Yiqi Zhang, Fangzheng Jiao, Tian Tang, Boyu Tian, Hangyu Wang, Qiaoling Chen, Guoteng Wang, Zhen Jiang, Peng Sun, Ping Zhang, Xiaohe Hu, Ziming Liu, Menghao Zhang, Yanmin Jia, Yang You, Siyuan Feng,
- Abstract要約: RLVRジョブ間で統一LLMサービスを多重化するクラスタレベルのランタイムPlexRLを提案する。
PlexRLはクラスタの有効容量を大幅に向上し,ユーザGPUの時間コストを最大37.58%削減することを示す。
- 参考スコア(独自算出の注目度): 33.08614139144317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has recently unlocked strong reasoning capabilities in large language models (LLMs), triggering rapid exploration of new algorithms and data. However, RLVR training is notoriously inefficient: long-tailed rollouts, tool-induced stalls, and asymmetric resource requirements between rollout and training introduce substantial idle time that cannot be eliminated by job-local optimizations such as synchronous pipelining, asynchronous rollout, or colocated execution. We argue that this inefficiency is structural. While idle gaps are unavoidable within individual RLVR jobs, they are largely anti-correlated across jobs and therefore exploitable at the cluster level. Leveraging this observation, we present PlexRL, a cluster-level runtime for multiplexing unified LLM services across RLVR jobs. By centrally managing model placement, state transitions, and function-level scheduling under strict affinity constraints, PlexRL time-slices LLM execution across jobs to fill otherwise idle periods without expensive model migration. Our implementation and evaluations demonstrate that PlexRL significantly improves effective cluster capacity and reduces user GPU hour cost by maximum 37.58% while preserving algorithmic flexibility and introducing minimal per-job overhead.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、最近、大規模言語モデル(LLM)の強力な推論機能を開放し、新しいアルゴリズムとデータを迅速に探索するきっかけとなった。
しかし、RLVRトレーニングは非効率で悪名高い。長い尾のロールアウト、ツールによるストール、ロールアウトとトレーニングの間の非対称なリソース要件は、同期パイプニング、非同期ロールアウト、コロケーション実行などのジョブローカル最適化によって排除できない、かなりのアイドル時間をもたらす。
この非効率性は構造的だと主張する。
アイドルギャップは個々のRLVRジョブでは避けられないが、ジョブ間ではほとんど関連性がなく、クラスタレベルで利用することができる。
この観察を生かしたPlexRLは、RLVRジョブ間で統一LLMサービスを多重化するクラスタレベルのランタイムである。
厳密な親和性制約の下で、モデル配置、状態遷移、関数レベルのスケジューリングを集中的に管理することにより、PlexRLは、高価なモデルマイグレーションなしで、他のアイドル期間を埋めるために、ジョブ間でのLLM実行をタイムスライスする。
PlexRLは,アルゴリズムの柔軟性を保ちながら,効率の良いクラスタ容量を向上し,ユーザGPUの時間コストを最大37.58%削減する。
関連論文リスト
- SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling [54.276306194000405]
SortedRLを提案する。SortedRLは、強化学習をスケールするためのオンライン長対応スケジューリング戦略である。
SortedRLは、出力長に基づいてロールアウトサンプルをリオーダーし、短いサンプルが早期更新のためにグループを形成することを優先順位付けする。
LLaMA-3.1-8BとQwen-2.5-32Bを論理パズルを含む様々なタスクで実験した結果、SortedRLはRLトレーニングバブル比を50%以上削減することが示された。
論文 参考訳(メタデータ) (2026-03-24T16:48:31Z) - RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - Role-Based Fault Tolerance System for LLM RL Post-Training [24.163081819380647]
トレーニング後のRLはトレーニングと推論のワークロードをインターリーブし、システムを両側の障害に晒す。
私たちの重要な洞察は、ロールベースの障害分離です。
本稿では,RL後トレーニング時間比改善のためのGPUマシンエラーを処理する,初の総合的ロバストシステムであるRobustRLを提案する。
論文 参考訳(メタデータ) (2025-12-27T06:30:18Z) - RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [23.24949857136035]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。
本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文 参考訳(メタデータ) (2025-05-30T07:18:25Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。