論文の概要: Pgx: Hardware-accelerated parallel game simulation for reinforcement
learning
- arxiv url: http://arxiv.org/abs/2303.17503v1
- Date: Wed, 29 Mar 2023 02:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 12:51:48.143192
- Title: Pgx: Hardware-accelerated parallel game simulation for reinforcement
learning
- Title(参考訳): Pgx:強化学習のためのハードウェアアクセラレーション並列ゲームシミュレーション
- Authors: Sotetsu Koyamada, Shinri Okano, Soichiro Nishimori, Yu Murata, Keigo
Habara, Haruka Kita, Shin Ishii
- Abstract要約: Pgx は JAX で記述されたボードゲームシミュレータのコレクションである。
GPU/TPUアクセラレータ上で数千の並列実行に簡単にスケールできる。
人工知能研究において重要なベンチマークとなるゲームを実装している。
- 参考スコア(独自算出の注目度): 1.554739162185774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Pgx, a collection of board game simulators written in JAX. Thanks
to auto-vectorization and Just-In-Time compilation of JAX, Pgx scales easily to
thousands of parallel execution on GPU/TPU accelerators. We found that the
simulation of Pgx on a single A100 GPU is 10x faster than that of existing
reinforcement learning libraries. Pgx implements games considered vital
benchmarks in artificial intelligence research, such as Backgammon, Shogi, and
Go. Pgx is available at https://github.com/sotetsuk/pgx.
- Abstract(参考訳): JAXで書かれたボードゲームシミュレータの集合であるPgxを提案する。
自動ベクタライゼーションとJAXのJust-In-Timeコンパイルのおかげで、PgxはGPU/TPUアクセラレータ上で数千の並列実行に容易にスケールできる。
一つのA100 GPU上でのPgxのシミュレーションは、既存の強化学習ライブラリの10倍高速であることがわかった。
Pgxは、Backgammon、Shogi、Goといった人工知能研究において重要なベンチマークとなるゲームを実装している。
pgxはhttps://github.com/sotetsuk/pgxで入手できる。
関連論文リスト
- NAVIX: Scaling MiniGrid Environments with JAX [17.944645332888335]
JAX における MiniGrid の再実装である NAVIX を紹介します。
NAVIXはバッチモードで20000倍以上の速度向上を実現し、Nvidia A100 80 GBで最大2048エージェントを並行してサポートする。
これは実験時間を1週間から15分に短縮し、より高速な設計とよりスケーラブルなRLモデル開発を促進する。
論文 参考訳(メタデータ) (2024-07-28T04:39:18Z) - JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。
我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。
また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - RL-X: A Deep Reinforcement Learning Library (not only) for RoboCup [0.0]
RL-Xは、自己完結した単一ディレクトリアルゴリズムで柔軟で簡単に拡張できる。
RL-Xは、Stable-Baselines3のような有名なフレームワークと比較して最大4.5倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2023-10-20T10:06:03Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - EnvPool: A Highly Parallel Reinforcement Learning Environment Execution
Engine [69.47822647770542]
並列環境の実行はシステム全体の最も遅い部分であるが、ほとんど注意を払わない。
RL環境の並列化設計により,RL環境シミュレーションの高速化を実現した。
ハイエンドマシンでは、Atari環境での環境実行で毎秒100万フレーム、MuJoCo環境では毎秒300万フレームを達成する。
論文 参考訳(メタデータ) (2022-06-21T17:36:15Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。
提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。
アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2021-10-30T09:13:39Z) - WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement
Learning on a GPU [15.337470862838794]
我々は、単一のGPU上でエンドツーエンドのマルチエージェントRLを実装する、柔軟で軽量で使いやすいオープンソースのRLフレームワークであるWarpDriveを紹介します。
我々の設計ではシミュレーションとエージェントを並列に実行し、GPU上に1つのシミュレーションデータストアを配置して安全に更新する。
WarpDriveは、ベンチマークTagシミュレーションにおいて、2000の環境と1000のエージェント(CPU実装と比べて少なくとも100倍高いスループット)で290万の環境ステップ/秒を生成する。
論文 参考訳(メタデータ) (2021-08-31T16:59:27Z) - Megaverse: Simulating Embodied Agents at One Million Experiences per
Second [75.1191260838366]
私たちは、強化学習と具体化AI研究のための新しい3DシミュレーションプラットフォームであるMegaverseを紹介します。
MegaverseはDeepMind Labより最大70倍速い。
私たちはMegaverseを使って、複数の単一エージェントタスクとマルチエージェントタスクからなる新しいベンチマークを構築します。
論文 参考訳(メタデータ) (2021-07-17T03:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。