論文の概要: Pgx: Hardware-Accelerated Parallel Game Simulators for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2303.17503v4
- Date: Mon, 15 Jan 2024 13:12:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 03:10:07.616460
- Title: Pgx: Hardware-Accelerated Parallel Game Simulators for Reinforcement
Learning
- Title(参考訳): Pgx:強化学習のためのハードウェアアクセラレーション並列ゲームシミュレータ
- Authors: Sotetsu Koyamada, Shinri Okano, Soichiro Nishimori, Yu Murata, Keigo
Habara, Haruka Kita, Shin Ishii
- Abstract要約: Pgxは、JAXで書かれたボードゲーム強化学習(RL)環境のスイートで、GPU/TPUアクセラレータ向けに最適化されている。
PgxはPythonの既存の実装よりも10~100倍高速にRL環境をシミュレートできる。
Pgxには、バックギャモン、チェス、ショギ、GoといったRL研究のベンチマークとして一般的に使用されるRL環境が含まれている。
- 参考スコア(独自算出の注目度): 0.6670498055582528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Pgx, a suite of board game reinforcement learning (RL)
environments written in JAX and optimized for GPU/TPU accelerators. By
leveraging JAX's auto-vectorization and parallelization over accelerators, Pgx
can efficiently scale to thousands of simultaneous simulations over
accelerators. In our experiments on a DGX-A100 workstation, we discovered that
Pgx can simulate RL environments 10-100x faster than existing implementations
available in Python. Pgx includes RL environments commonly used as benchmarks
in RL research, such as backgammon, chess, shogi, and Go. Additionally, Pgx
offers miniature game sets and baseline models to facilitate rapid research
cycles. We demonstrate the efficient training of the Gumbel AlphaZero algorithm
with Pgx environments. Overall, Pgx provides high-performance environment
simulators for researchers to accelerate their RL experiments. Pgx is available
at http://github.com/sotetsuk/pgx.
- Abstract(参考訳): JAXで記述され,GPU/TPUアクセラレータ向けに最適化されたボードゲーム強化学習(RL)環境のスイートであるPgxを提案する。
JAXのオートベクタライゼーションとアクセラレータ上での並列化を活用することで、Pgxはアクセラレータ上で数千の同時シミュレーションに効率的にスケールすることができる。
DGX-A100ワークステーションの実験で、PgxはPythonの既存の実装よりも10~100倍高速にRL環境をシミュレートできることがわかった。
Pgxには、バックギャモン、チェス、ショギ、GoといったRL研究のベンチマークとして一般的に使用されるRL環境が含まれている。
さらにPgxは、迅速な研究サイクルを促進するために、ミニチュアゲームセットとベースラインモデルを提供している。
pgx環境を用いたgumbel alphazeroアルゴリズムの効率的なトレーニングを行う。
pgxは、研究者がrl実験を加速するための高性能環境シミュレータを提供する。
pgxはhttp://github.com/sotetsuk/pgxで利用可能である。
関連論文リスト
- NAVIX: Scaling MiniGrid Environments with JAX [17.944645332888335]
JAX における MiniGrid の再実装である NAVIX を紹介します。
NAVIXはバッチモードで20000倍以上の速度向上を実現し、Nvidia A100 80 GBで最大2048エージェントを並行してサポートする。
これは実験時間を1週間から15分に短縮し、より高速な設計とよりスケーラブルなRLモデル開発を促進する。
論文 参考訳(メタデータ) (2024-07-28T04:39:18Z) - JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。
我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。
また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - RL-X: A Deep Reinforcement Learning Library (not only) for RoboCup [0.0]
RL-Xは、自己完結した単一ディレクトリアルゴリズムで柔軟で簡単に拡張できる。
RL-Xは、Stable-Baselines3のような有名なフレームワークと比較して最大4.5倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2023-10-20T10:06:03Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - EnvPool: A Highly Parallel Reinforcement Learning Environment Execution
Engine [69.47822647770542]
並列環境の実行はシステム全体の最も遅い部分であるが、ほとんど注意を払わない。
RL環境の並列化設計により,RL環境シミュレーションの高速化を実現した。
ハイエンドマシンでは、Atari環境での環境実行で毎秒100万フレーム、MuJoCo環境では毎秒300万フレームを達成する。
論文 参考訳(メタデータ) (2022-06-21T17:36:15Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。
提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。
アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2021-10-30T09:13:39Z) - WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement
Learning on a GPU [15.337470862838794]
我々は、単一のGPU上でエンドツーエンドのマルチエージェントRLを実装する、柔軟で軽量で使いやすいオープンソースのRLフレームワークであるWarpDriveを紹介します。
我々の設計ではシミュレーションとエージェントを並列に実行し、GPU上に1つのシミュレーションデータストアを配置して安全に更新する。
WarpDriveは、ベンチマークTagシミュレーションにおいて、2000の環境と1000のエージェント(CPU実装と比べて少なくとも100倍高いスループット)で290万の環境ステップ/秒を生成する。
論文 参考訳(メタデータ) (2021-08-31T16:59:27Z) - Megaverse: Simulating Embodied Agents at One Million Experiences per
Second [75.1191260838366]
私たちは、強化学習と具体化AI研究のための新しい3DシミュレーションプラットフォームであるMegaverseを紹介します。
MegaverseはDeepMind Labより最大70倍速い。
私たちはMegaverseを使って、複数の単一エージェントタスクとマルチエージェントタスクからなる新しいベンチマークを構築します。
論文 参考訳(メタデータ) (2021-07-17T03:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。