論文の概要: WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement
Learning on a GPU
- arxiv url: http://arxiv.org/abs/2108.13976v1
- Date: Tue, 31 Aug 2021 16:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-01 14:19:27.433887
- Title: WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement
Learning on a GPU
- Title(参考訳): WarpDrive:GPUによる極端に高速なエンドツーエンドのマルチエージェント強化学習
- Authors: Tian Lan, Sunil Srinivasa, Stephan Zheng
- Abstract要約: 我々は、単一のGPU上でエンドツーエンドのマルチエージェントRLを実装する、柔軟で軽量で使いやすいオープンソースのRLフレームワークであるWarpDriveを紹介します。
我々の設計ではシミュレーションとエージェントを並列に実行し、GPU上に1つのシミュレーションデータストアを配置して安全に更新する。
WarpDriveは、ベンチマークTagシミュレーションにおいて、2000の環境と1000のエージェント(CPU実装と比べて少なくとも100倍高いスループット)で290万の環境ステップ/秒を生成する。
- 参考スコア(独自算出の注目度): 15.337470862838794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (RL) is a powerful framework to train
decision-making models in complex dynamical environments. However, RL can be
slow as it learns through repeated interaction with a simulation of the
environment. Accelerating RL requires both algorithmic and engineering
innovations. In particular, there are key systems engineering bottlenecks when
using RL in complex environments that feature multiple agents or
high-dimensional state, observation, or action spaces, for example. We present
WarpDrive, a flexible, lightweight, and easy-to-use open-source RL framework
that implements end-to-end multi-agent RL on a single GPU (Graphics Processing
Unit), building on PyCUDA and PyTorch. Using the extreme parallelization
capability of GPUs, WarpDrive enables orders-of-magnitude faster RL compared to
common implementations that blend CPU simulations and GPU models. Our design
runs simulations and the agents in each simulation in parallel. It eliminates
data copying between CPU and GPU. It also uses a single simulation data store
on the GPU that is safely updated in-place. Together, this allows the user to
run thousands of concurrent multi-agent simulations and train on extremely
large batches of experience. For example, WarpDrive yields 2.9 million
environment steps/second with 2000 environments and 1000 agents (at least 100x
higher throughput compared to a CPU implementation) in a benchmark Tag
simulation. WarpDrive provides a lightweight Python interface and environment
wrappers to simplify usage and promote flexibility and extensions. As such,
WarpDrive provides a framework for building high-throughput RL systems.
- Abstract(参考訳): 深層強化学習は複雑な動的環境下で意思決定モデルを訓練するための強力なフレームワークである。
しかし、RLは環境シミュレーションとの繰り返しの相互作用を通じて学習するので、遅くなる可能性がある。
RLの高速化にはアルゴリズムとエンジニアリングの革新が必要だ。
特に、複数のエージェントや高次元の状態、観察、行動空間を特徴とする複雑な環境でRLを使用する場合、重要なシステムエンジニアリングボトルネックがある。
我々は,PyCUDAとPyTorch上に構築された,単一のGPU(Graphics Processing Unit)上にエンドツーエンドのマルチエージェントRLを実装する,フレキシブルで軽量で使いやすいオープンソースRLフレームワークであるWarpDriveを紹介する。
gpuの極端な並列化機能を使用して、warpdriveはcpuシミュレーションとgpuモデルをブレンドする一般的な実装と比較して、桁違いにrlを高速化する。
私たちの設計はシミュレーションとエージェントを並行して実行します。
CPUとGPU間のデータのコピーをなくす。
また、gpu上の単一のシミュレーションデータストアを使用して、安全に更新される。
これにより、ユーザーは何千もの同時マルチエージェントシミュレーションを実行し、非常に大きな経験のバッチでトレーニングすることができる。
例えば、ベンチマークTagシミュレーションでは、2000の環境と1000のエージェント(CPU実装の100倍高いスループット)で290万の環境ステップ/秒が生成される。
WarpDriveは軽量のPythonインターフェースと環境ラッパーを提供し、使用をシンプルにし、柔軟性と拡張を促進する。
したがって、WarpDriveは高スループットのRLシステムを構築するためのフレームワークを提供する。
関連論文リスト
- GPUDrive: Data-driven, multi-agent driving simulation at 1 million FPS [4.172988187048097]
GPUDriveはMadrona Engine Game上に構築されたGPUアクセラレーションされたマルチエージェントシミュレータである。
我々はGPUDriveを使うことで、Open Motionデータセットの多くのシーンで強化学習エージェントを効果的に訓練できることを示した。
論文 参考訳(メタデータ) (2024-08-02T21:37:46Z) - JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。
我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。
また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Parallel $Q$-Learning: Scaling Off-policy Reinforcement Learning under
Massively Parallel Simulation [17.827002299991285]
強化学習は、大量のトレーニングデータを必要とするため、複雑なタスクに時間を要する。
アイザック・ギムのようなGPUベースのシミュレーションの最近の進歩は、コモディティGPU上で何千回もデータを収集している。
本稿では,PPOを壁面時間で上回る並列$Q$-Learning方式を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:59:37Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Optimizing Data Collection in Deep Reinforcement Learning [4.9709347068704455]
GPUベクタライゼーションは、一般的に使用されるCPUシミュレータよりも最大1024タイムでスピードアップできる。
シミュレーションの複雑さがメモリ帯域幅の要求で増大するにつれて、シミュレーターカーネルの核融合の高速化は11.3Times$となり、最大1024times$に増加することを示す。
論文 参考訳(メタデータ) (2022-07-15T20:22:31Z) - EnvPool: A Highly Parallel Reinforcement Learning Environment Execution
Engine [69.47822647770542]
並列環境の実行はシステム全体の最も遅い部分であるが、ほとんど注意を払わない。
RL環境の並列化設計により,RL環境シミュレーションの高速化を実現した。
ハイエンドマシンでは、Atari環境での環境実行で毎秒100万フレーム、MuJoCo環境では毎秒300万フレームを達成する。
論文 参考訳(メタデータ) (2022-06-21T17:36:15Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - Accelerating GAN training using highly parallel hardware on public cloud [0.3694429692322631]
本研究は,GAN(Geneversarative Adversarial Network)を並列環境でトレーニングする,さまざまなタイプのクラウドサービスについて検討する。
複数のGPUとGoogle Processing Units(TPU)上でのトレーニングプロセスを並列化する。
トレーニングプロセスの線形スピードアップは、物理結果の観点から、ほとんどの性能を保ちながら得られる。
論文 参考訳(メタデータ) (2021-11-08T16:59:15Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。