論文の概要: EnvPool: A Highly Parallel Reinforcement Learning Environment Execution
Engine
- arxiv url: http://arxiv.org/abs/2206.10558v1
- Date: Tue, 21 Jun 2022 17:36:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 15:34:53.608118
- Title: EnvPool: A Highly Parallel Reinforcement Learning Environment Execution
Engine
- Title(参考訳): envpool: 高度並列強化学習環境実行エンジン
- Authors: Jiayi Weng, Min Lin, Shengyi Huang, Bo Liu, Denys Makoviichuk, Viktor
Makoviychuk, Zichen Liu, Yufan Song, Ting Luo, Yukun Jiang, Zhongwen Xu,
Shuicheng Yan
- Abstract要約: 並列環境の実行はシステム全体の最も遅い部分であるが、ほとんど注意を払わない。
RL環境の並列化設計により,RL環境シミュレーションの高速化を実現した。
ハイエンドマシンでは、Atari環境での環境実行で毎秒100万フレーム、MuJoCo環境では毎秒300万フレームを達成する。
- 参考スコア(独自算出の注目度): 69.47822647770542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been significant progress in developing reinforcement learning (RL)
training systems. Past works such as IMPALA, Apex, Seed RL, Sample Factory, and
others aim to improve the system's overall throughput. In this paper, we try to
address a common bottleneck in the RL training system, i.e., parallel
environment execution, which is often the slowest part of the whole system but
receives little attention. With a curated design for paralleling RL
environments, we have improved the RL environment simulation speed across
different hardware setups, ranging from a laptop, and a modest workstation, to
a high-end machine like NVIDIA DGX-A100. On a high-end machine, EnvPool
achieves 1 million frames per second for the environment execution on Atari
environments and 3 million frames per second on MuJoCo environments. When
running on a laptop, the speed of EnvPool is 2.8 times of the Python
subprocess. Moreover, great compatibility with existing RL training libraries
has been demonstrated in the open-sourced community, including CleanRL,
rl_games, DeepMind Acme, etc. Finally, EnvPool allows researchers to iterate
their ideas at a much faster pace and has the great potential to become the de
facto RL environment execution engine. Example runs show that it takes only 5
minutes to train Atari Pong and MuJoCo Ant, both on a laptop. EnvPool has
already been open-sourced at https://github.com/sail-sg/envpool.
- Abstract(参考訳): 強化学習(RL)訓練システムの開発には大きな進展があった。
IMPALA、Apex、Seed RL、Sample Factoryなどの過去の作業は、システム全体のスループットを改善することを目的としていた。
本稿では,RLトレーニングシステムにおける共通ボトルネック,すなわち並列環境の実行に対処する。
RL環境を並列化するためのキュレートされた設計により、ラップトップや控えめなワークステーションからNVIDIA DGX-A100のようなハイエンドマシンまで、さまざまなハードウェアセットアップにわたるRL環境シミュレーション速度を改善しました。
ハイエンドマシンでは、envpoolはatari環境上での環境実行に毎秒100万フレーム、mujoco環境では毎秒300万フレームを達成している。
ラップトップ上で実行する場合、EnvPoolの速度はPythonサブプロセスの2.8倍である。
さらに、CleanRL、rl_games、DeepMind Acmeなど、既存のRLトレーニングライブラリとの互換性も、オープンソースコミュニティで実証されている。
最後に、EnvPoolは、研究者がアイデアをより速いペースで反復し、事実上のRL環境実行エンジンになる大きな可能性を秘めている。
例を挙げると、atari pongとmujoco antのトレーニングに5分しかかからない。
envpoolはすでにhttps://github.com/sail-sg/envpoolでオープンソース化されている。
関連論文リスト
- XuanCe: A Comprehensive and Unified Deep Reinforcement Learning Library [18.603206638756056]
XuanCeは総合的に統合された深層強化学習(DRL)ライブラリである。
XuanCeは40以上の古典DRLとマルチエージェントDRLアルゴリズムを含む幅広い機能を提供している。
XuanCeはオープンソースで、https://agi-brain.com/agi-brain/xuance.gitでアクセスできる。
論文 参考訳(メタデータ) (2023-12-25T14:45:39Z) - JaxMARL: Multi-Agent RL Environments in JAX [107.7560737385902]
我々は、使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLを紹介します。
私たちの実験によると、JAXベースのトレーニングパイプラインの実行は、既存のアプローチよりも最大で12500倍高速です。
また、人気のあるStarCraft Multi-Agent Challengeのベクトル化、単純化されたバージョンであるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand
Cores [11.311766565113922]
本稿では,多種多様なアプリケーションを対象とした実践的RLトレーニングを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的な分散RLシステムReaLly Scalable RL(SRL)を開発した。
SRLは、そのような大規模なRL実験を行った最初の学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor
Abstractions on CPU Architectures [101.36990944099105]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement
Learning on a GPU [15.337470862838794]
我々は、単一のGPU上でエンドツーエンドのマルチエージェントRLを実装する、柔軟で軽量で使いやすいオープンソースのRLフレームワークであるWarpDriveを紹介します。
我々の設計ではシミュレーションとエージェントを並列に実行し、GPU上に1つのシミュレーションデータストアを配置して安全に更新する。
WarpDriveは、ベンチマークTagシミュレーションにおいて、2000の環境と1000のエージェント(CPU実装と比べて少なくとも100倍高いスループット)で290万の環境ステップ/秒を生成する。
論文 参考訳(メタデータ) (2021-08-31T16:59:27Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with
Asynchronous Reinforcement Learning [68.2099740607854]
サンプルファクトリー(Sample Factory)は、シングルマシン設定に最適化された高スループットトレーニングシステムである。
我々のアーキテクチャは、非常に効率的で非同期なGPUベースのサンプリングと、オフポリシー補正技術を組み合わせています。
我々は,Sample Factoryを拡張して,セルフプレイと人口ベーストレーニングをサポートし,これらのテクニックを多人数一対一シューティングゲームのための高度なエージェントの訓練に応用する。
論文 参考訳(メタデータ) (2020-06-21T10:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。