論文の概要: EnvPool: A Highly Parallel Reinforcement Learning Environment Execution
Engine
- arxiv url: http://arxiv.org/abs/2206.10558v1
- Date: Tue, 21 Jun 2022 17:36:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 15:34:53.608118
- Title: EnvPool: A Highly Parallel Reinforcement Learning Environment Execution
Engine
- Title(参考訳): envpool: 高度並列強化学習環境実行エンジン
- Authors: Jiayi Weng, Min Lin, Shengyi Huang, Bo Liu, Denys Makoviichuk, Viktor
Makoviychuk, Zichen Liu, Yufan Song, Ting Luo, Yukun Jiang, Zhongwen Xu,
Shuicheng Yan
- Abstract要約: 並列環境の実行はシステム全体の最も遅い部分であるが、ほとんど注意を払わない。
RL環境の並列化設計により,RL環境シミュレーションの高速化を実現した。
ハイエンドマシンでは、Atari環境での環境実行で毎秒100万フレーム、MuJoCo環境では毎秒300万フレームを達成する。
- 参考スコア(独自算出の注目度): 69.47822647770542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been significant progress in developing reinforcement learning (RL)
training systems. Past works such as IMPALA, Apex, Seed RL, Sample Factory, and
others aim to improve the system's overall throughput. In this paper, we try to
address a common bottleneck in the RL training system, i.e., parallel
environment execution, which is often the slowest part of the whole system but
receives little attention. With a curated design for paralleling RL
environments, we have improved the RL environment simulation speed across
different hardware setups, ranging from a laptop, and a modest workstation, to
a high-end machine like NVIDIA DGX-A100. On a high-end machine, EnvPool
achieves 1 million frames per second for the environment execution on Atari
environments and 3 million frames per second on MuJoCo environments. When
running on a laptop, the speed of EnvPool is 2.8 times of the Python
subprocess. Moreover, great compatibility with existing RL training libraries
has been demonstrated in the open-sourced community, including CleanRL,
rl_games, DeepMind Acme, etc. Finally, EnvPool allows researchers to iterate
their ideas at a much faster pace and has the great potential to become the de
facto RL environment execution engine. Example runs show that it takes only 5
minutes to train Atari Pong and MuJoCo Ant, both on a laptop. EnvPool has
already been open-sourced at https://github.com/sail-sg/envpool.
- Abstract(参考訳): 強化学習(RL)訓練システムの開発には大きな進展があった。
IMPALA、Apex、Seed RL、Sample Factoryなどの過去の作業は、システム全体のスループットを改善することを目的としていた。
本稿では,RLトレーニングシステムにおける共通ボトルネック,すなわち並列環境の実行に対処する。
RL環境を並列化するためのキュレートされた設計により、ラップトップや控えめなワークステーションからNVIDIA DGX-A100のようなハイエンドマシンまで、さまざまなハードウェアセットアップにわたるRL環境シミュレーション速度を改善しました。
ハイエンドマシンでは、envpoolはatari環境上での環境実行に毎秒100万フレーム、mujoco環境では毎秒300万フレームを達成している。
ラップトップ上で実行する場合、EnvPoolの速度はPythonサブプロセスの2.8倍である。
さらに、CleanRL、rl_games、DeepMind Acmeなど、既存のRLトレーニングライブラリとの互換性も、オープンソースコミュニティで実証されている。
最後に、EnvPoolは、研究者がアイデアをより速いペースで反復し、事実上のRL環境実行エンジンになる大きな可能性を秘めている。
例を挙げると、atari pongとmujoco antのトレーニングに5分しかかからない。
envpoolはすでにhttps://github.com/sail-sg/envpoolでオープンソース化されている。
関連論文リスト
- NAVIX: Scaling MiniGrid Environments with JAX [17.944645332888335]
JAX における MiniGrid の再実装である NAVIX を紹介します。
NAVIXはバッチモードで20000倍以上の速度向上を実現し、Nvidia A100 80 GBで最大2048エージェントを並行してサポートする。
これは実験時間を1週間から15分に短縮し、より高速な設計とよりスケーラブルなRLモデル開発を促進する。
論文 参考訳(メタデータ) (2024-07-28T04:39:18Z) - A Benchmark Environment for Offline Reinforcement Learning in Racing Games [54.83171948184851]
オフライン強化学習(英語: Offline Reinforcement Learning、ORL)は、従来の強化学習(RL)の高サンプリング複雑さを減らすための有望なアプローチである。
本稿では,ORL研究のための新しい環境であるOfflineManiaを紹介する。
TrackManiaシリーズにインスパイアされ、Unity 3Dゲームエンジンで開発された。
論文 参考訳(メタデータ) (2024-07-12T16:44:03Z) - JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。
我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。
また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement
Learning on a GPU [15.337470862838794]
我々は、単一のGPU上でエンドツーエンドのマルチエージェントRLを実装する、柔軟で軽量で使いやすいオープンソースのRLフレームワークであるWarpDriveを紹介します。
我々の設計ではシミュレーションとエージェントを並列に実行し、GPU上に1つのシミュレーションデータストアを配置して安全に更新する。
WarpDriveは、ベンチマークTagシミュレーションにおいて、2000の環境と1000のエージェント(CPU実装と比べて少なくとも100倍高いスループット)で290万の環境ステップ/秒を生成する。
論文 参考訳(メタデータ) (2021-08-31T16:59:27Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - Sample Factory: Egocentric 3D Control from Pixels at 100000 FPS with
Asynchronous Reinforcement Learning [68.2099740607854]
サンプルファクトリー(Sample Factory)は、シングルマシン設定に最適化された高スループットトレーニングシステムである。
我々のアーキテクチャは、非常に効率的で非同期なGPUベースのサンプリングと、オフポリシー補正技術を組み合わせています。
我々は,Sample Factoryを拡張して,セルフプレイと人口ベーストレーニングをサポートし,これらのテクニックを多人数一対一シューティングゲームのための高度なエージェントの訓練に応用する。
論文 参考訳(メタデータ) (2020-06-21T10:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。