論文の概要: Pgx: Hardware-accelerated parallel game simulation for reinforcement
learning
- arxiv url: http://arxiv.org/abs/2303.17503v1
- Date: Wed, 29 Mar 2023 02:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 12:51:48.143192
- Title: Pgx: Hardware-accelerated parallel game simulation for reinforcement
learning
- Title(参考訳): Pgx:強化学習のためのハードウェアアクセラレーション並列ゲームシミュレーション
- Authors: Sotetsu Koyamada, Shinri Okano, Soichiro Nishimori, Yu Murata, Keigo
Habara, Haruka Kita, Shin Ishii
- Abstract要約: Pgx は JAX で記述されたボードゲームシミュレータのコレクションである。
GPU/TPUアクセラレータ上で数千の並列実行に簡単にスケールできる。
人工知能研究において重要なベンチマークとなるゲームを実装している。
- 参考スコア(独自算出の注目度): 1.554739162185774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Pgx, a collection of board game simulators written in JAX. Thanks
to auto-vectorization and Just-In-Time compilation of JAX, Pgx scales easily to
thousands of parallel execution on GPU/TPU accelerators. We found that the
simulation of Pgx on a single A100 GPU is 10x faster than that of existing
reinforcement learning libraries. Pgx implements games considered vital
benchmarks in artificial intelligence research, such as Backgammon, Shogi, and
Go. Pgx is available at https://github.com/sotetsuk/pgx.
- Abstract(参考訳): JAXで書かれたボードゲームシミュレータの集合であるPgxを提案する。
自動ベクタライゼーションとJAXのJust-In-Timeコンパイルのおかげで、PgxはGPU/TPUアクセラレータ上で数千の並列実行に容易にスケールできる。
一つのA100 GPU上でのPgxのシミュレーションは、既存の強化学習ライブラリの10倍高速であることがわかった。
Pgxは、Backgammon、Shogi、Goといった人工知能研究において重要なベンチマークとなるゲームを実装している。
pgxはhttps://github.com/sotetsuk/pgxで入手できる。
関連論文リスト
- JaxMARL: Multi-Agent RL Environments in JAX [107.7560737385902]
我々は、使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLを紹介します。
私たちの実験によると、JAXベースのトレーニングパイプラインの実行は、既存のアプローチよりも最大で12500倍高速です。
また、人気のあるStarCraft Multi-Agent Challengeのベクトル化、単純化されたバージョンであるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - RL-X: A Deep Reinforcement Learning Library (not only) for RoboCup [0.0]
RL-Xは、自己完結した単一ディレクトリアルゴリズムで柔軟で簡単に拡張できる。
RL-Xは、Stable-Baselines3のような有名なフレームワークと比較して最大4.5倍のスピードアップを達成できる。
論文 参考訳(メタデータ) (2023-10-20T10:06:03Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - EnvPool: A Highly Parallel Reinforcement Learning Environment Execution
Engine [69.47822647770542]
並列環境の実行はシステム全体の最も遅い部分であるが、ほとんど注意を払わない。
RL環境の並列化設計により,RL環境シミュレーションの高速化を実現した。
ハイエンドマシンでは、Atari環境での環境実行で毎秒100万フレーム、MuJoCo環境では毎秒300万フレームを達成する。
論文 参考訳(メタデータ) (2022-06-21T17:36:15Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。
提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。
アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2021-10-30T09:13:39Z) - WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement
Learning on a GPU [15.337470862838794]
我々は、単一のGPU上でエンドツーエンドのマルチエージェントRLを実装する、柔軟で軽量で使いやすいオープンソースのRLフレームワークであるWarpDriveを紹介します。
我々の設計ではシミュレーションとエージェントを並列に実行し、GPU上に1つのシミュレーションデータストアを配置して安全に更新する。
WarpDriveは、ベンチマークTagシミュレーションにおいて、2000の環境と1000のエージェント(CPU実装と比べて少なくとも100倍高いスループット)で290万の環境ステップ/秒を生成する。
論文 参考訳(メタデータ) (2021-08-31T16:59:27Z) - Megaverse: Simulating Embodied Agents at One Million Experiences per
Second [75.1191260838366]
私たちは、強化学習と具体化AI研究のための新しい3DシミュレーションプラットフォームであるMegaverseを紹介します。
MegaverseはDeepMind Labより最大70倍速い。
私たちはMegaverseを使って、複数の単一エージェントタスクとマルチエージェントタスクからなる新しいベンチマークを構築します。
論文 参考訳(メタデータ) (2021-07-17T03:16:25Z) - Survival regression with accelerated failure time model in XGBoost [1.5469452301122177]
サバイバル回帰は、時間から時間までの変数と特徴変数の関係を推定するために用いられる。
XGBoostは、高速化された障害時間モデルを学習するための損失関数を実装している。
論文 参考訳(メタデータ) (2020-06-08T20:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。