論文の概要: JigsawRL: Assembling RL Pipelines for Efficient LLM Post-Training
- arxiv url: http://arxiv.org/abs/2604.23838v1
- Date: Sun, 26 Apr 2026 18:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.58708
- Title: JigsawRL: Assembling RL Pipelines for Efficient LLM Post-Training
- Title(参考訳): JigsawRL: 効率的なLLM後トレーニングのためのRLパイプラインの組み立て
- Authors: Zhengding Hu, Hehua Ouyang, Chang Chen, Zaifeng Pan, Yue Guan, Zhongkai Yu, Zhen Wang, Steven Swanson, Yufei Ding,
- Abstract要約: JigsawRLは各パイプラインをサブステージグラフに分解し、ステージレベルのシステムに隠されたステージ内およびワーカー間の不均衡を公開する。
J JigsawRLは、同期RL上のVerl上の最大1.85倍のスループット、StreamRL上の1.54倍、非同期RL上のAReaLを実現する。
- 参考スコア(独自算出の注目度): 18.390343908577318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present JigsawRL, a cost-efficient framework that explores Pipeline Multiplexing as a new dimension of RL parallelism. JigsawRL decomposes each pipeline into a Sub-Stage Graph that exposes the intra-stage and inter-worker imbalance hidden by stage-level systems. On this abstraction, JigsawRL resolves multiplexing interference through dynamic resource allocation, eliminates fragmented utilization by migrating long-tail rollouts across workers, and formulates their coordination as a graph scheduling problem solved with a look-ahead heuristic. On 4-64 H100/A100 GPUs across different agentic RL pipelines and models, JigsawRL achieves up to 1.85x throughput over Verl on synchronous RL, 1.54x over StreamRL and AReaL on asynchronous RL, and supports heterogeneous pipelines with moderate latency trade-off.
- Abstract(参考訳): 本稿では,RL並列性の新たな次元としてパイプライン多重化を探求する費用効率のよいフレームワークJigsawRLを提案する。
JigsawRLは各パイプラインをサブステージグラフに分解し、ステージレベルのシステムに隠されたステージ内およびワーカー間の不均衡を公開する。
この抽象化により、JigsawRLは動的リソース割り当てによる多重化干渉を解消し、ワーカ間のロングテールロールアウトを移行することで断片化された利用を排除し、ルックアヘッドヒューリスティックで解決されたグラフスケジューリング問題としてそれらの調整を定式化する。
異なるエージェントRLパイプラインとモデルにわたる4-64 H100/A100 GPU上で、JigsawRLは、同期RL上のVerl上の最大1.85倍のスループット、StreamRL上の1.54倍、非同期RL上のAReaLを実現し、適度なレイテンシトレードオフを伴う異種パイプラインをサポートする。
関連論文リスト
- SortedRL: Accelerating RL Training for LLMs through Online Length-Aware Scheduling [54.276306194000405]
SortedRLを提案する。SortedRLは、強化学習をスケールするためのオンライン長対応スケジューリング戦略である。
SortedRLは、出力長に基づいてロールアウトサンプルをリオーダーし、短いサンプルが早期更新のためにグループを形成することを優先順位付けする。
LLaMA-3.1-8BとQwen-2.5-32Bを論理パズルを含む様々なタスクで実験した結果、SortedRLはRLトレーニングバブル比を50%以上削減することが示された。
論文 参考訳(メタデータ) (2026-03-24T16:48:31Z) - RLHFless: Serverless Computing for Efficient RLHF [13.743738615300662]
Reinforcement Learning from Human Feedback (RLHF) はLarge Language Model (LLM) のポストトレーニングに広く応用されている。
サーバレスコンピューティング環境上に構築された、同期RLHFのための最初のスケーラブルなトレーニングフレームワークであるRLHFlessを紹介します。
論文 参考訳(メタデータ) (2026-02-26T07:45:37Z) - $π_\texttt{RL}$: Online RL Fine-tuning for Flow-based Vision-Language-Action Models [76.66547858171452]
$pi_textRL$は、並列シミュレーションでフローベースのVision-Language-Action(VLA)モデルをトレーニングするためのオープンソースのフレームワークである。
$pi_textRL$は、数ショットのSFTモデルに$pi_0.5$を57.6%から97.6%へ、それぞれ77.1%から98.3%へ引き上げる。
ManiSkillでは、320の並列環境で$pi_textRL$をトレーニングし、$pi_textRL$を41.6%から85.7%、$pi_0.5に改善します。
論文 参考訳(メタデータ) (2025-10-29T18:37:39Z) - RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - MindSpeed RL: Distributed Dataflow for Scalable and Efficient RL Training on Ascend NPU Cluster [6.589537564035392]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルの整合化にますます用いられるパラダイムである。
本稿では,大規模RL学習のための効果的かつ効率的なシステムであるMindSpeed RLを紹介する。
論文 参考訳(メタデータ) (2025-07-25T07:11:49Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Reinforcement Learning with Graph Attention for Routing and Wavelength Assignment with Lightpath Reuse [49.1574468325115]
フレキシブルレートトランスポンダを用いた固定グリッドネットワーク上でのルーティングとスペクトル割り当ての強化学習について検討する。
RWA-LRは総長ではなくホップ数によって候補経路が順序づけられたときのスループットが6%向上することを示す。
我々はRWA-LRのためのRLエージェントをポリシーと値関数のためのグラフアテンションネットワークで訓練し、グラフ構造化データを利用する。
論文 参考訳(メタデータ) (2025-02-20T17:10:11Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - RLlib Flow: Distributed Reinforcement Learning is a Dataflow Problem [37.38316954355031]
分散強化学習による課題を再検討する。
本稿では,RLをデータフロー問題と見なすと,構成性が高く,性能も高い実装が得られることを示す。
分散RLのためのハイブリッドアクターデータフローモデルであるRLlib Flowを提案する。
論文 参考訳(メタデータ) (2020-11-25T13:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。