論文の概要: Highly Parallelized Reinforcement Learning Training with Relaxed Assignment Dependencies
- arxiv url: http://arxiv.org/abs/2502.20190v1
- Date: Thu, 27 Feb 2025 15:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:34.293317
- Title: Highly Parallelized Reinforcement Learning Training with Relaxed Assignment Dependencies
- Title(参考訳): 緩和割当て依存性を用いた高並列強化学習教育
- Authors: Zhouyu He, Peng Qiao, Rongchun Li, Yong Dou, Yusong Tan,
- Abstract要約: 本稿では,高スループット分散深層強化学習システムTianJiを提案する。
サブタスクコンポーネント間の割り当て依存関係を緩和し、イベント駆動の非同期通信を可能にする。
TianJiは、関連する比較システムと比較して最大4.37の収束時間加速比を達成する。
- 参考スコア(独自算出の注目度): 10.18115392275147
- License:
- Abstract: As the demands for superior agents grow, the training complexity of Deep Reinforcement Learning (DRL) becomes higher. Thus, accelerating training of DRL has become a major research focus. Dividing the DRL training process into subtasks and using parallel computation can effectively reduce training costs. However, current DRL training systems lack sufficient parallelization due to data assignment between subtask components. This assignment issue has been ignored, but addressing it can further boost training efficiency. Therefore, we propose a high-throughput distributed RL training system called TianJi. It relaxes assignment dependencies between subtask components and enables event-driven asynchronous communication. Meanwhile, TianJi maintains clear boundaries between subtask components. To address convergence uncertainty from relaxed assignment dependencies, TianJi proposes a distributed strategy based on the balance of sample production and consumption. The strategy controls the staleness of samples to correct their quality, ensuring convergence. We conducted extensive experiments. TianJi achieves a convergence time acceleration ratio of up to 4.37 compared to related comparison systems. When scaled to eight computational nodes, TianJi shows a convergence time speedup of 1.6 and a throughput speedup of 7.13 relative to XingTian, demonstrating its capability to accelerate training and scalability. In data transmission efficiency experiments, TianJi significantly outperforms other systems, approaching hardware limits. TianJi also shows effectiveness in on-policy algorithms, achieving convergence time acceleration ratios of 4.36 and 2.95 compared to RLlib and XingTian. TianJi is accessible at https://github.com/HiPRL/TianJi.git.
- Abstract(参考訳): 優れたエージェントの要求が高まるにつれて、Deep Reinforcement Learning(DRL)のトレーニングの複雑さが増す。
このように、DRLの訓練の加速が研究の焦点となっている。
DRLトレーニングプロセスをサブタスクに分割し、並列計算を使用することで、トレーニングコストを効果的に削減できる。
しかし、現在のDRLトレーニングシステムでは、サブタスクコンポーネント間のデータ割り当てによる十分な並列化が欠如している。
この課題は無視されているが、トレーニングの効率をさらに向上させる可能性がある。
そこで本研究では,TianJiと呼ばれる高スループット分散RLトレーニングシステムを提案する。
サブタスクコンポーネント間の割り当て依存関係を緩和し、イベント駆動の非同期通信を可能にする。
一方、TianJiはサブタスクコンポーネント間の明確な境界を維持している。
緩和された割り当て依存からの収束の不確実性を解決するため、TianJiはサンプル生産と消費のバランスに基づいた分散戦略を提案する。
この戦略は、サンプルの安定性を制御し、その品質を補正し、収束を確実にする。
我々は広範な実験を行った。
TianJiは、関連する比較システムと比較して最大4.37の収束時間加速比を達成する。
8つの計算ノードにスケールすると、TianJiは1.6の収束時間スピードアップと7.13のスループットスピードアップを示し、トレーニングとスケーラビリティを加速する能力を示している。
データ伝送効率の実験では、TianJiは他のシステムよりも優れており、ハードウェアの限界に近づいている。
TianJiは、RLlibやXingTianと比べて収束時間加速比が4.36と2.95である。
TianJiはhttps://github.com/HiPRL/TianJi.gitでアクセスできる。
関連論文リスト
- DistRL: An Asynchronous Distributed Reinforcement Learning Framework for On-Device Control Agents [38.0441002097771]
DistRLは、モバイルデバイス制御エージェントのオンラインRLファインチューニングの効率を高めるために設計された、新しいフレームワークである。
平均して、DistRLはトレーニング効率を3倍改善し、主要な同期マルチマシンメソッドよりも2.4倍高速なトレーニングデータ収集を可能にする。
論文 参考訳(メタデータ) (2024-10-18T18:19:56Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Optimal Parallelization Strategies for Active Flow Control in Deep Reinforcement Learning-Based Computational Fluid Dynamics [29.49913315698914]
Deep Reinforcement Learning (DRL) は、高ダイナミックかつ非線形なアクティブフロー制御(AFC)問題を扱うための有望なアプローチとして登場した。
本研究では、DRLに基づくアルゴリズムを並列設定で最適化することに焦点を当てる。
並列効率を約49%から約78%に向上させる。
論文 参考訳(メタデータ) (2024-02-18T09:07:30Z) - Solving Continual Offline Reinforcement Learning with Decision Transformer [78.59473797783673]
連続的オフライン強化学習(CORL)は、連続的およびオフライン的な強化学習を組み合わせたものである。
Actor-Critic構造とエクスペリエンス・リプレイ(ER)を取り入れた既存の手法は、分散シフト、低効率、知識共有の弱さに悩まされている。
我々は,マルチヘッドDT (MH-DT) とローランク適応DT (LoRA-DT) を導入し,DTの無視問題を緩和する。
論文 参考訳(メタデータ) (2024-01-16T16:28:32Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Spreeze: High-Throughput Parallel Reinforcement Learning Framework [19.3019166138232]
Spreezeは強化学習のための軽量並列フレームワークである。
単一のデスクトップハードウェアリソースを効率よく利用し、スループット制限にアプローチする。
最大15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートを達成することができる。
論文 参考訳(メタデータ) (2023-12-11T05:25:01Z) - Efficient Parallel Reinforcement Learning Framework using the Reactor
Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文 参考訳(メタデータ) (2023-12-07T21:19:57Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - High-Throughput Synchronous Deep RL [132.43861715707905]
HTS-RL(High-Throughput Synchronous Deep Reinforcement Learning)の提案
私たちは同時に学習とロールアウトを行い、古いポリシーを避けるシステム設計を考案します。
我々は,アタリゲームとGoogle Research Football環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-17T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。