論文の概要: DORA: A Scalable Asynchronous Reinforcement Learning System for Language Model Training
- arxiv url: http://arxiv.org/abs/2604.26256v1
- Date: Wed, 29 Apr 2026 03:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.23966
- Title: DORA: A Scalable Asynchronous Reinforcement Learning System for Language Model Training
- Title(参考訳): DORA: 言語モデル学習のためのスケーラブルな非同期強化学習システム
- Authors: Tianhao Hu, Xiangcheng Liu, Youshao Xiao, Yang Zheng, Xuan Huang, Jinrui Ding, Yufei Zhang, Tao Liang, Hongyu Zang, Quan Chen, Yueqing Sun, Wenjie Shi, Chao Zhang, Wei Wang, Qi Gu, Yerui Sun, Yucheng Xie, Xunliang Cai,
- Abstract要約: 非同期トレーニングは、トレーニングで生成を重複させることによって自然な改善を提供する。
既存のアプローチは、本質的に長い尾の軌道問題に対処できない。
本稿では,アルゴリズム・システムの共同設計を通じてこの問題に対処するDORAを提案する。
- 参考スコア(独自算出の注目度): 30.35748518368946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has become a critical paradigm for LLM post-training, yet the rollout phase -- accounting for 50--80% of total step time -- is bottlenecked by skewed generation: long-tailed trajectories indispensable for model performance block the entire training pipeline. Asynchronous training offers a natural remedy by overlapping generation with training, but introduces a fundamental tension between efficiency and algorithmic correctness. We identify three constraints in asynchronous training to preserve convergence: intra-trajectory policy consistency, data integrity, and bounded staleness. Existing approaches fail to intrinsically address the long-tailed trajectory problem, which is further exacerbated by the imbalance characteristic of Mix-of-Experts models, or deviate from the standard RL training formulation, thereby hindering model convergence. Therefore, we propose DORA (Dynamic ORchestration for Asynchronous Rollout), which addresses this challenge through algorithm-system co-design. DORA introduces multi-version streaming rollout, a novel asynchronous paradigm that maintains multiple policy versions concurrently -- simultaneously achieving full bubble elimination without compromising algorithmic constraints. Experimental results demonstrate that our DORA system achieves substantial improvements in throughput -- up to 2--3 times higher than state-of-the-art systems on open-source benchmarks -- without compromising convergence. Furthermore, in large-scale industrial applications with tens of thousands of accelerators, DORA accelerates RL training by 2--4 times compared to synchronous training across various scenarios. The resultant open-source models, LongCat-Flash-Thinking, exhibit competitive performance on complex reasoning benchmarks, matching the capability of most advanced LLMs.
- Abstract(参考訳): 強化学習(RL)はLLM後のトレーニングにおいて重要なパラダイムとなっているが、ロールアウトフェーズ(全ステップ時間の50~80%を占める)は、歪んだ生成によってボトルネックになっている。
非同期トレーニングは、トレーニングで生成を重複させることによって自然な治療を提供するが、効率性とアルゴリズムの正しさの間に根本的な緊張をもたらす。
コンバージェンスを維持するために非同期トレーニングでは,軌道内ポリシーの整合性,データの整合性,および有界安定性という3つの制約を規定する。
既存のアプローチでは、Mix-of-Expertsモデルの不均衡特性によってさらに悪化する長い尾の軌道問題に本質的に対処できず、あるいは標準RLトレーニング定式から逸脱し、モデル収束を妨げる。
そこで本研究では,アルゴリズム・システム共同設計によるDORA(Dynamic Orchestration for Asynchronous Rollout)を提案する。
DORAは,複数のポリシバージョンを同時に維持する新しい非同期パラダイムであるマルチバージョンストリーミングロールアウトを導入する。同時に,アルゴリズム制約を損なうことなく,完全なバブル除去を実現する。実験結果は,我々のDORAシステムが,コンバージェンスを損なうことなく,オープンソースベンチマークの最先端システムよりも最大2~3倍のスループット向上を実現していることを示す。
さらに、数万のアクセラレータを持つ大規模産業アプリケーションでは、さまざまなシナリオにおける同期トレーニングに比べて、DORAはRLトレーニングを2~4倍高速化する。
結果として得られたオープンソースモデルであるLongCat-Flash-Thinkingは、複雑な推論ベンチマークで競合性能を示し、最も先進的なLCMの能力に匹敵する。
関連論文リスト
- AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models [21.204182133307047]
本稿では,完全に非同期で疎結合なRLフレームワークであるAceRLを提案する。
AcceRLは、プラグ&プレイ可能なトレーニング可能なワールドモデルを分散非同期RLパイプラインに統合する最初の方法である。
LIBEROciteliu2023liberoベンチマークの実験では、AceRLがSOTA(State-of-the-art)のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2026-03-19T03:50:45Z) - RL-VLA$^3$: Reinforcement Learning VLA Accelerating via Full Asynchronism [42.27384804295299]
VLA(Vision-Language-Action)モデルは、一般的なインボディードインテリジェンスへの重要な経路として登場した。
本稿では,環境相互作用からアクタポリシー更新に至るまで,パイプライン全体を包含する完全に非同期なポリシートレーニングフレームワークを提案し,実装する。
LIBEROベンチマークでは、既存の同期戦略と比較して59.25%のスループット向上を実現している。
論文 参考訳(メタデータ) (2026-02-05T15:30:23Z) - DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。
既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。
我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文 参考訳(メタデータ) (2025-12-23T08:33:19Z) - Periodic Asynchrony: An Effective Method for Accelerating Reinforcement Learning [8.395046547177806]
強化学習 (RL) が注目され, 再生・適用への取り組みが高まっている。
主流のRLフレームワークでは、推論とトレーニングは一般的に同じデバイスにデプロイされる。
本研究では、推論とトレーニングの展開を分離する戦略に戻ります。
従来の同期アーキテクチャを周期的な非同期フレームワークに変換し、各コンポーネントの要求駆動、独立、および弾力的なスケーリングを可能にします。
論文 参考訳(メタデータ) (2025-11-24T08:22:50Z) - Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter [52.111923076688505]
強力な推論能力を持つ大規模言語モデル(LLM)のトレーニングは、複雑な問題解決において新たなフロンティアを解放する重要なマイルストーンとなる。
本稿では,適応的投機的復号化を組み込むことで,RL学習の無作為に推論を高速化するシステムであるTLTを提案する。
論文 参考訳(メタデータ) (2025-11-20T18:59:25Z) - AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs [24.96730768606278]
異種対応非同期RLトレーニングシステムであるAReaL-Hexを提案する。
ヘテロジニアスGPU上でロールアウト生成とポリシモデルのトレーニングを実行する方法を、効果的にスケジュールする。
最大1.50倍のトレーニングスループットと1.46倍のトレーニングコストの削減を提供する。
論文 参考訳(メタデータ) (2025-11-02T04:17:30Z) - Laminar: A Scalable Asynchronous RL Post-Training Framework [20.127034898123508]
RL軌道生成における長い尾の歪みは、重いGPU不使用を引き起こす。
現在のRLシステムはアクターとロールアウト間のグローバルな重量同期に依存しており、厳密なモデル更新スケジュールを生成する。
完全に分離されたアーキテクチャ上に構築されたスケーラブルで堅牢なRLポストトレーニングシステムであるLaminarを提案する。
論文 参考訳(メタデータ) (2025-10-14T15:29:14Z) - Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony [78.70328630805041]
ROLL Flashは、ROLLを拡張し、非同期RLポストトレーニングをネイティブにサポートするシステムである。
ROLL Flashは同期RLポストトレーニングよりもリソース利用とスケーラビリティを著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-10-13T12:41:27Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。