論文の概要: Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms
- arxiv url: http://arxiv.org/abs/2508.05387v1
- Date: Thu, 07 Aug 2025 13:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.878555
- Title: Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms
- Title(参考訳): エコー:不均一群における大規模RLアライメントのデカップリング推論とトレーニング
- Authors: Jie Xiao, Shaoduo Gan, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai,
- Abstract要約: 大規模言語モデルのポストトレーニングは、同じGPUクラスタ上でトラジェクトリサンプリングとポリシ最適化を併用する。
ヘテロジニアスな"推論"と"トレーニング"スワムにまたがって、これらの2つのフェーズをきれいに分離するRLシステムであるEchoを紹介します。
- 参考スコア(独自算出の注目度): 4.127488674019288
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern RL-based post-training for large language models (LLMs) co-locate trajectory sampling and policy optimisation on the same GPU cluster, forcing the system to switch between inference and training workloads. This serial context switching violates the single-program-multiple-data (SPMD) assumption underlying today's distributed training systems. We present Echo, the RL system that cleanly decouples these two phases across heterogeneous "inference" and "training" swarms while preserving statistical efficiency. Echo introduces two lightweight synchronization protocols: a sequential pull mode that refreshes sampler weights on every API call for minimal bias, and an asynchronous push-pull mode that streams version-tagged rollouts through a replay buffer to maximise hardware utilisation. Training three representative RL workloads with Qwen3-4B, Qwen2.5-7B and Qwen3-32B on a geographically distributed cluster, Echo matches a fully co-located Verl baseline in convergence speed and final reward while off-loading trajectory generation to commodity edge hardware. These promising results demonstrate that large-scale RL for LLMs could achieve datacentre-grade performance using decentralised, heterogeneous resources.
- Abstract(参考訳): 大規模言語モデル(LLM)のためのモダンなRLベースのポストトレーニングは、同じGPUクラスタ上でトラジェクトリサンプリングとポリシ最適化を共用することで、システムは推論とトレーニングワークロードを切り替えざるを得なくなった。
このシリアルコンテキストスイッチングは、今日の分散トレーニングシステムを支えるシングルプログラムマルチデータ(SPMD)の仮定に違反している。
統計的効率を保ちながら、不均一な"推論"と"トレーニング"スワム間でこれらの2つのフェーズをきれいに分離するRLシステムであるEchoを提案する。
Echoは2つの軽量同期プロトコルを導入している。最小限のバイアスのために、各API呼び出しでサンプルの重みをリフレッシュするシーケンシャルプルモードと、リプレイバッファを通じてバージョンタグのロールアウトをストリームしてハードウェア利用を最大化する非同期プッシュプルモードだ。
地理的に分散したクラスタ上で、Qwen3-4B、Qwen2.5-7B、Qwen3-32Bで3つの代表的なRLワークロードをトレーニングする。
これらの有望な結果は、LLMのための大規模RLが、分散化された異種資源を用いて、データセントレグレードのパフォーマンスを達成できることを証明している。
関連論文リスト
- High-Throughput Distributed Reinforcement Learning via Adaptive Policy Synchronization [0.0]
ClusterEnvは、Gymnasium APIを反映した、分散環境実行のための学習者に依存しないインターフェイスである。
ClusterEnvは、リモートワーカーにreset()とstep()操作をオフロードし、学習を集中的に維持することで、トレーニングからシミュレーションを分離するDETACHパターンを導入した。
本稿では,適応アクタポリシー同期(AAPS)を提案する。これは分散トリガーによる更新機構で,性能を犠牲にすることなく,同期オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-07-15T05:07:12Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - The Streaming Batch Model for Efficient and Fault-Tolerant Heterogeneous Execution [20.926218346718482]
本稿では, 効率的かつフォールトトレラントなヘテロジニアス実行を可能にする2つのモデルのハイブリッドであるストリーミングバッチモデルを紹介する。
我々は、従来のバッチ処理やストリーム処理システムと比較して、異種バッチ推論パイプラインのスループットを3~8$timesで改善するストリーミングバッチモデルの実装であるRay Dataを紹介する。
論文 参考訳(メタデータ) (2025-01-16T19:54:01Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Efficient Parallel Reinforcement Learning Framework using the Reactor
Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文 参考訳(メタデータ) (2023-12-07T21:19:57Z) - Offline Reinforcement Learning at Multiple Frequencies [62.08749079914275]
本研究では、オフライン強化学習アルゴリズムが、トレーニング中に複数の周波数を混合したデータに対応できるかどうかについて検討する。
学習を安定させるために$Q$-valueの更新率で一貫性を強制する、単純だが効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:54:49Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。