論文の概要: AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs
- arxiv url: http://arxiv.org/abs/2511.00796v1
- Date: Sun, 02 Nov 2025 04:17:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.937496
- Title: AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs
- Title(参考訳): AReaL-Hex: 異種GPUによる非同期RLトレーニングの調整
- Authors: Ran Yan, Youhe Jiang, Tianyuan Wu, Jiaxuan Gao, Zhiyu Mei, Wei Fu, Haohui Mai, Wei Wang, Yi Wu, Binhang Yuan,
- Abstract要約: 異種対応非同期RLトレーニングシステムであるAReaL-Hexを提案する。
ヘテロジニアスGPU上でロールアウト生成とポリシモデルのトレーニングを実行する方法を、効果的にスケジュールする。
最大1.50倍のトレーニングスループットと1.46倍のトレーニングコストの削減を提供する。
- 参考スコア(独自算出の注目度): 24.96730768606278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Maximizing training throughput and cost-efficiency of RL for LLMs is essential to democratize this advanced technique. One promising but challenging approach is to deploy such a computational workflow over heterogeneous GPUs. Unlike conventional large-scale LLM pretraining, RL training generally decomposes into three coupled stages, i.e., rollout generation, reward computation, and policy/value updates, which exhibit markedly different compute intensities, memory footprints, and communication patterns. Recent research shows that fully asynchronous RL training can disaggregate these stages across disjoint hardware pools without sacrificing training stability, creating a great opportunity for real-world heterogeneous deployment. To this end, we present AReaL-Hex, a heterogeneity-aware asynchronous RL training system that effectively schedules how to execute rollout generation and policy model training over heterogeneous GPUs while enforcing data staleness bounds. Concretely, we use a two-phase scheduler: (i) a constrained search with MILP to select per-stage parallelization strategies and workload assignments given a resource budget, and (ii) a graph-partitioning step that allocates heterogeneous GPUs and interconnects to maximize end-to-end throughput. Built atop a fully asynchronous RL architecture, AReaL-Hex maps HBM-I/O-bound generation and compute-bound optimization to more cost-efficient resources and balances their producer-consumer interactions to avoid both idleness and stale rollout trajectories. On the mathematical reasoning task with various model scales (1.5B, 7B, and 14B), compared to homogeneous deployments of state-of-the-art asynchronous RL systems: (i) When maintaining the same total budgets, AReaL-Hex delivers up to 1.50x higher training throughput; (ii) When achieving the same training throughput, AReaL-Hex results in up to 1.46x reduction in training cost.
- Abstract(参考訳): LLMの学習スループットと費用効率の最大化は、この先進的な技術を民主化する上で不可欠である。
有望だが挑戦的なアプローチのひとつは、そのような計算ワークフローを異種GPUにデプロイすることだ。
従来の大規模LLM事前訓練とは異なり、RLトレーニングは一般に、ロールアウト生成、報酬計算、ポリシー/値更新という3つの複合ステージに分解され、計算強度、メモリフットプリント、通信パターンが著しく異なる。
最近の研究によると、完全に非同期なRLトレーニングは、トレーニング安定性を犠牲にすることなく、これらのステージを非結合なハードウェアプールに分散させ、現実世界の異種展開の絶好の機会を生み出すことができる。
そこで本研究では,不均一性を考慮した非同期RLトレーニングシステムであるAReaL-Hexを提案する。
具体的には、二相スケジューラを使用します。
一 資源予算が与えられた段階ごとの並列化戦略及びワークロード割り当てを選択するためのMILPによる制約付き検索
(ii)不均一なGPUと相互接続を割り当て、エンドツーエンドのスループットを最大化するグラフ分割ステップ。
完全に非同期なRLアーキテクチャの上に構築されたAReaL-Hexは、HBM-I/Oバウンド生成と計算バウンド最適化を、よりコスト効率のよいリソースにマッピングし、アイドルネスとロールアウトの両方を避けるために、プロデューサとコンシューマの相互作用のバランスをとる。
各種モデルスケール(1.5B, 7B, 14B)の数学的推論タスクについて : 最先端非同期RLシステムの均質な展開との比較
i) 同じ予算を維持する場合、AReaL-Hexは最大1.50倍のトレーニングスループットを提供する。
(II)同じトレーニングスループットを達成すると、AReaL-Hexは最大1.46倍のトレーニングコストを削減できる。
関連論文リスト
- RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - The Art of Scaling Reinforcement Learning Compute for LLMs [52.71086085139566]
強化学習(RL)は、大規模言語モデルの訓練の中心となっている。
計算予算の急激な増加にもかかわらず、RL計算のスケーリングにおけるアルゴリズム改善の評価方法に関する原則的な理解は存在しない。
我々は,約40万時間以上のGPU時間を有する,最初の大規模体系的な研究を提示する。
論文 参考訳(メタデータ) (2025-10-15T17:43:03Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [23.24949857136035]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。
本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文 参考訳(メタデータ) (2025-05-30T07:18:25Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。