Fugu-MT 論文翻訳(概要): Highly Parallelized Reinforcement Learning Training with Relaxed Assignment Dependencies

論文の概要: Highly Parallelized Reinforcement Learning Training with Relaxed Assignment Dependencies

arxiv url: http://arxiv.org/abs/2502.20190v1
Date: Thu, 27 Feb 2025 15:23:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:47.113755
Title: Highly Parallelized Reinforcement Learning Training with Relaxed Assignment Dependencies
Title（参考訳）: 緩和割当て依存性を用いた高並列強化学習教育
Authors: Zhouyu He, Peng Qiao, Rongchun Li, Yong Dou, Yusong Tan,
Abstract要約: 本稿では,高スループット分散深層強化学習システムTianJiを提案する。サブタスクコンポーネント間の割り当て依存関係を緩和し、イベント駆動の非同期通信を可能にする。 TianJiは、関連する比較システムと比較して最大4.37の収束時間加速比を達成する。
参考スコア（独自算出の注目度）: 10.18115392275147
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As the demands for superior agents grow, the training complexity of Deep Reinforcement Learning (DRL) becomes higher. Thus, accelerating training of DRL has become a major research focus. Dividing the DRL training process into subtasks and using parallel computation can effectively reduce training costs. However, current DRL training systems lack sufficient parallelization due to data assignment between subtask components. This assignment issue has been ignored, but addressing it can further boost training efficiency. Therefore, we propose a high-throughput distributed RL training system called TianJi. It relaxes assignment dependencies between subtask components and enables event-driven asynchronous communication. Meanwhile, TianJi maintains clear boundaries between subtask components. To address convergence uncertainty from relaxed assignment dependencies, TianJi proposes a distributed strategy based on the balance of sample production and consumption. The strategy controls the staleness of samples to correct their quality, ensuring convergence. We conducted extensive experiments. TianJi achieves a convergence time acceleration ratio of up to 4.37 compared to related comparison systems. When scaled to eight computational nodes, TianJi shows a convergence time speedup of 1.6 and a throughput speedup of 7.13 relative to XingTian, demonstrating its capability to accelerate training and scalability. In data transmission efficiency experiments, TianJi significantly outperforms other systems, approaching hardware limits. TianJi also shows effectiveness in on-policy algorithms, achieving convergence time acceleration ratios of 4.36 and 2.95 compared to RLlib and XingTian. TianJi is accessible at https://github.com/HiPRL/TianJi.git.
Abstract（参考訳）: 優れたエージェントの要求が高まるにつれて、Deep Reinforcement Learning(DRL)のトレーニングの複雑さが増す。このように、DRLの訓練の加速が研究の焦点となっている。 DRLトレーニングプロセスをサブタスクに分割し、並列計算を使用することで、トレーニングコストを効果的に削減できる。しかし、現在のDRLトレーニングシステムでは、サブタスクコンポーネント間のデータ割り当てによる十分な並列化が欠如している。この課題は無視されているが、トレーニングの効率をさらに向上させる可能性がある。そこで本研究では,TianJiと呼ばれる高スループット分散RLトレーニングシステムを提案する。サブタスクコンポーネント間の割り当て依存関係を緩和し、イベント駆動の非同期通信を可能にする。一方、TianJiはサブタスクコンポーネント間の明確な境界を維持している。緩和された割り当て依存からの収束の不確実性を解決するため、TianJiはサンプル生産と消費のバランスに基づいた分散戦略を提案する。この戦略は、サンプルの安定性を制御し、その品質を補正し、収束を確実にする。我々は広範な実験を行った。 TianJiは、関連する比較システムと比較して最大4.37の収束時間加速比を達成する。 8つの計算ノードにスケールすると、TianJiは1.6の収束時間スピードアップと7.13のスループットスピードアップを示し、トレーニングとスケーラビリティを加速する能力を示している。データ伝送効率の実験では、TianJiは他のシステムよりも優れており、ハードウェアの限界に近づいている。 TianJiは、RLlibやXingTianと比べて収束時間加速比が4.36と2.95である。 TianJiはhttps://github.com/HiPRL/TianJi.gitでアクセスできる。

関連論文リスト

Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文参考訳（メタデータ） (2025-08-07T17:53:47Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文参考訳（メタデータ） (2025-03-24T17:51:39Z)
DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents [38.0441002097771]
DistRLは、モバイルデバイス制御エージェントのオンラインRLファインチューニングの効率を高めるために設計された、新しいフレームワークである。平均して、DistRLはトレーニング効率を3倍改善し、主要な同期マルチマシンメソッドよりも2.4倍高速なトレーニングデータ収集を可能にする。
論文参考訳（メタデータ） (2024-10-18T18:19:56Z)
PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。 PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文参考訳（メタデータ） (2024-03-14T09:06:49Z)
Optimal Parallelization Strategies for Active Flow Control in Deep Reinforcement Learning-Based Computational Fluid Dynamics [29.49913315698914]
Deep Reinforcement Learning (DRL) は、高ダイナミックかつ非線形なアクティブフロー制御(AFC)問題を扱うための有望なアプローチとして登場した。本研究では、DRLに基づくアルゴリズムを並列設定で最適化することに焦点を当てる。並列効率を約49%から約78%に向上させる。
論文参考訳（メタデータ） (2024-02-18T09:07:30Z)
Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。 Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文参考訳（メタデータ） (2024-01-16T16:28:32Z)
Efficient Asynchronous Federated Learning with Sparsification and Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。 FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。 TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文参考訳（メタデータ） (2023-12-23T07:47:07Z)
Spreeze: High-Throughput Parallel Reinforcement Learning Framework [19.3019166138232]
Spreezeは強化学習のための軽量並列フレームワークである。単一のデスクトップハードウェアリソースを効率よく利用し、スループット制限にアプローチする。最大15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートを達成することができる。
論文参考訳（メタデータ） (2023-12-11T05:25:01Z)
Efficient Parallel Reinforcement Learning Framework using the Reactor Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。 Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文参考訳（メタデータ） (2023-12-07T21:19:57Z)
High-Throughput Synchronous Deep RL [132.43861715707905]
HTS-RL(High-Throughput Synchronous Deep Reinforcement Learning)の提案私たちは同時に学習とロールアウトを行い、古いポリシーを避けるシステム設計を考案します。我々は,アタリゲームとGoogle Research Football環境に対するアプローチを評価した。
論文参考訳（メタデータ） (2020-12-17T18:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。