論文の概要: Spreeze: High-Throughput Parallel Reinforcement Learning Framework
- arxiv url: http://arxiv.org/abs/2312.06126v1
- Date: Mon, 11 Dec 2023 05:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 16:53:15.047136
- Title: Spreeze: High-Throughput Parallel Reinforcement Learning Framework
- Title(参考訳): spreeze: 高スループット並列強化学習フレームワーク
- Authors: Jing Hou, Guang Chen, Ruiqi Zhang, Zhijun Li, Shangding Gu, Changjun
Jiang
- Abstract要約: Spreezeは強化学習のための軽量並列フレームワークである。
単一のデスクトップハードウェアリソースを効率よく利用し、スループット制限にアプローチする。
最大15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートを達成することができる。
- 参考スコア(独自算出の注目度): 19.3019166138232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The promotion of large-scale applications of reinforcement learning (RL)
requires efficient training computation. While existing parallel RL frameworks
encompass a variety of RL algorithms and parallelization techniques, the
excessively burdensome communication frameworks hinder the attainment of the
hardware's limit for final throughput and training effects on a single desktop.
In this paper, we propose Spreeze, a lightweight parallel framework for RL that
efficiently utilizes a single desktop hardware resource to approach the
throughput limit. We asynchronously parallelize the experience sampling,
network update, performance evaluation, and visualization operations, and
employ multiple efficient data transmission techniques to transfer various
types of data between processes. The framework can automatically adjust the
parallelization hyperparameters based on the computing ability of the hardware
device in order to perform efficient large-batch updates. Based on the
characteristics of the "Actor-Critic" RL algorithm, our framework uses dual
GPUs to independently update the network of actors and critics in order to
further improve throughput. Simulation results show that our framework can
achieve up to 15,000Hz experience sampling and 370,000Hz network update frame
rate using only a personal desktop computer, which is an order of magnitude
higher than other mainstream parallel RL frameworks, resulting in a 73%
reduction of training time. Our work on fully utilizing the hardware resources
of a single desktop computer is fundamental to enabling efficient large-scale
distributed RL training.
- Abstract(参考訳): 強化学習(RL)の大規模応用の促進には,効率的な訓練計算が必要である。
既存の並列RLフレームワークは様々なRLアルゴリズムと並列化技術を含んでいるが、過度に負担のかかる通信フレームワークは、単一のデスクトップ上での最終的なスループットとトレーニング効果に対するハードウェアの限界の達成を妨げている。
本稿では、単一のデスクトップハードウェアリソースを効率的に利用し、スループット限界にアプローチするRLのための軽量並列フレームワークであるSpreezeを提案する。
我々は,データサンプリング,ネットワーク更新,性能評価,可視化処理を非同期に並列化し,複数の効率的なデータ伝送技術を用いてプロセス間で様々な種類のデータを転送する。
このフレームワークは、ハードウェアデバイスの計算能力に基づいて並列化ハイパーパラメータを自動的に調整し、効率的な大規模バッチ更新を行う。
actor-critic" rlアルゴリズムの特性に基づいて,デュアルgpuを用いてアクターと批評家のネットワークを独立に更新し,スループットをさらに向上させる。
シミュレーションの結果、我々のフレームワークは15,000Hzのサンプリングと370,000Hzのネットワーク更新フレームレートをパーソナルデスクトップコンピュータだけで実現でき、これは他の主流の並列RLフレームワークよりも桁違いに高いので、トレーニング時間を73%削減できることがわかった。
単一デスクトップコンピュータのハードウェアリソースをフル活用する作業は,大規模分散RL学習の効率化に不可欠である。
関連論文リスト
- ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Optimal Parallelization Strategies for Active Flow Control in Deep Reinforcement Learning-Based Computational Fluid Dynamics [29.49913315698914]
Deep Reinforcement Learning (DRL) は、高ダイナミックかつ非線形なアクティブフロー制御(AFC)問題を扱うための有望なアプローチとして登場した。
本研究では、DRLに基づくアルゴリズムを並列設定で最適化することに焦点を当てる。
並列効率を約49%から約78%に向上させる。
論文 参考訳(メタデータ) (2024-02-18T09:07:30Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Efficient Parallel Reinforcement Learning Framework using the Reactor
Model [2.190190313041532]
強化学習(RL)フレームワークは、RLワークロードを複数の計算リソースにマッピングするために不可欠である。
Rayのような既存のフレームワークは、このオーケストレーションを効率的に管理していない。
我々は,アクターの集合が固定的な通信パターンを持つように強制するリアクターモデルを実装するソリューションを提案している。
論文 参考訳(メタデータ) (2023-12-07T21:19:57Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Curriculum-based Asymmetric Multi-task Reinforcement Learning [14.5357225087828]
本稿では,複数の強化学習(RL)タスクを完全に処理するための,最初のカリキュラムベースの非対称マルチタスク学習(AMTL)アルゴリズムであるCAMRLを紹介する。
カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる負の影響を軽減するため、CAMRLは並列シングルタスクRLと非対称マルチタスクRL(MTRL)間のトレーニングモードを切り替える
我々は、Gym-minigrid、Meta-world、Atariビデオゲーム、視覚ベースのPyBulletタスク、RLBenchを含むマルチタスクRLの幅広いベンチマーク実験を行った。
論文 参考訳(メタデータ) (2022-11-07T08:05:13Z) - MSRL: Distributed Reinforcement Learning with Dataflow Fragments [16.867322708270116]
強化学習(RL)は多くのエージェントを訓練するが、リソース集約であり、大規模なGPUクラスタにスケールする必要がある。
我々は,分散RL学習システムであるMindSpore Reinforcement Learning (MSRL)について述べる。
MSRLは、RLアルゴリズムのトレーニングループから並列計算フラグメントに関数をマッピングする、断片化されたデータフローグラフの新たな抽象化を導入している。
論文 参考訳(メタデータ) (2022-10-03T12:34:58Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T21:00:53Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。