論文の概要: ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.02192v2
- Date: Tue, 03 Feb 2026 08:46:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.741155
- Title: ECHO-2: A Large-Scale Distributed Rollout Framework for Cost-Efficient Reinforcement Learning
- Title(参考訳): ECHO-2: コスト効率の良い強化学習のための大規模分散ロールアウトフレームワーク
- Authors: Jie Xiao, Meng Chen, Qingnan Ren, Song Jingwei, Jiaqi Huang, Yangshen Deng, Chris Tong, Wanyi Chen, Suli Wang, Ziqian Bi, Shuo Lu, Yiqun Duan, Xu Wang, Rymon Yu, Ween Yang, Lynn Ai, Eric Yang, Bill Shi,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、学習後の大規模言語モデル(LLM)において重要な段階である。
本稿では,遠隔推論作業者と非無視の拡散遅延を用いた後学習のための分散RLフレームワークECHO-2を提案する。
ECHO-2は、強力なベースラインに匹敵するRL報酬を維持しながら、コスト効率を大幅に改善する。
- 参考スコア(独自算出の注目度): 12.132638540954671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is a critical stage in post-training large language models (LLMs), involving repeated interaction between rollout generation, reward evaluation, and centralized learning. Distributing rollout execution offers opportunities to leverage more cost-efficient inference resources, but introduces challenges in wide-area coordination and policy dissemination. We present ECHO-2, a distributed RL framework for post-training with remote inference workers and non-negligible dissemination latency. ECHO-2 combines centralized learning with distributed rollouts and treats bounded policy staleness as a user-controlled parameter, enabling rollout generation, dissemination, and training to overlap. We introduce an overlap-based capacity model that relates training time, dissemination latency, and rollout throughput, yielding a practical provisioning rule for sustaining learner utilization. To mitigate dissemination bottlenecks and lower cost, ECHO-2 employs peer-assisted pipelined broadcast and cost-aware activation of heterogeneous workers. Experiments on GRPO post-training of 4B and 8B models under real wide-area bandwidth regimes show that ECHO-2 significantly improves cost efficiency while preserving RL reward comparable to strong baselines.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、ロールアウト生成、報酬評価、集中学習の繰り返しを含む、大規模言語モデル(LLM)の訓練後の重要な段階である。
ロールアウト実行の分散は、よりコスト効率のよい推論資源を活用する機会を提供するが、広域調整と政策普及の課題を導入する。
本稿では,遠隔推論作業者と非無視の拡散遅延を用いた後学習のための分散RLフレームワークECHO-2を提案する。
ECHO-2は集中学習と分散ロールアウトを組み合わせることで、ユーザ制御パラメータとしてバウンダリポリシの安定化を扱い、ロールアウト生成、普及、トレーニングの重複を可能にする。
本稿では,訓練時間,普及遅延,ロールアウトスループットを関連付ける重畳型キャパシティモデルを提案する。
分散ボトルネックの緩和と低コスト化のために、ECHO-2は異種労働者のピアアシストパイプラインブロードキャストとコストアウェアアクティベーションを採用している。
4Bモデルと8BモデルのGRPO後トレーニング実験により、ECHO-2は強力なベースラインに匹敵するRL報酬を保ちながら、コスト効率を大幅に向上することが示された。
関連論文リスト
- Resource-Efficient Reinforcement for Reasoning Large Language Models via Dynamic One-Shot Policy Refinement [21.073482007189504]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な性能を示した。
検証可能な報酬(RLVR)の下での強化学習は、モデル行動と推論連鎖を整合させるための原則的な枠組みとして現れつつある。
その約束にもかかわらず、RLVRは厳しい資源集約であり、広範な報奨信号を必要とし、訓練中にかなりのロールアウトコストを発生させる。
論文 参考訳(メタデータ) (2026-01-31T16:51:50Z) - RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。
RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文 参考訳(メタデータ) (2025-10-22T04:19:37Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Improve the Training Efficiency of DRL for Wireless Communication Resource Allocation: The Role of Generative Diffusion Models [2.702550149035333]
無線ネットワークにおけるDRLトレーニングの基本的なボトルネックを克服するために,拡散に基づく深層強化学習(D2RL)を提案する。
D2RLは、無線通信におけるリソース割り当てのための従来のDRL法よりも高速な収束と計算コストの削減を実現している。
この研究は、無線ネットワークにおけるDRLトレーニングの基本的なボトルネックを克服する上で、GDMの変革の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-11T03:09:45Z) - DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents [38.0441002097771]
DistRLは、モバイルデバイス制御エージェントのオンラインRLファインチューニングの効率を高めるために設計された、新しいフレームワークである。
平均して、DistRLはトレーニング効率を3倍改善し、主要な同期マルチマシンメソッドよりも2.4倍高速なトレーニングデータ収集を可能にする。
論文 参考訳(メタデータ) (2024-10-18T18:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。