Fugu-MT 論文翻訳(概要): Pgx: Hardware-accelerated parallel game simulation for reinforcement learning

論文の概要: Pgx: Hardware-accelerated parallel game simulation for reinforcement learning

arxiv url: http://arxiv.org/abs/2303.17503v1
Date: Wed, 29 Mar 2023 02:41:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-31 12:51:48.143192
Title: Pgx: Hardware-accelerated parallel game simulation for reinforcement learning
Title（参考訳）: Pgx:強化学習のためのハードウェアアクセラレーション並列ゲームシミュレーション
Authors: Sotetsu Koyamada, Shinri Okano, Soichiro Nishimori, Yu Murata, Keigo Habara, Haruka Kita, Shin Ishii
Abstract要約: Pgx は JAX で記述されたボードゲームシミュレータのコレクションである。 GPU/TPUアクセラレータ上で数千の並列実行に簡単にスケールできる。人工知能研究において重要なベンチマークとなるゲームを実装している。
参考スコア（独自算出の注目度）: 1.554739162185774
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose Pgx, a collection of board game simulators written in JAX. Thanks to auto-vectorization and Just-In-Time compilation of JAX, Pgx scales easily to thousands of parallel execution on GPU/TPU accelerators. We found that the simulation of Pgx on a single A100 GPU is 10x faster than that of existing reinforcement learning libraries. Pgx implements games considered vital benchmarks in artificial intelligence research, such as Backgammon, Shogi, and Go. Pgx is available at https://github.com/sotetsuk/pgx.
Abstract（参考訳）: JAXで書かれたボードゲームシミュレータの集合であるPgxを提案する。自動ベクタライゼーションとJAXのJust-In-Timeコンパイルのおかげで、PgxはGPU/TPUアクセラレータ上で数千の並列実行に容易にスケールできる。一つのA100 GPU上でのPgxのシミュレーションは、既存の強化学習ライブラリの10倍高速であることがわかった。 Pgxは、Backgammon、Shogi、Goといった人工知能研究において重要なベンチマークとなるゲームを実装している。 pgxはhttps://github.com/sotetsuk/pgxで入手できる。

関連論文リスト

Ludax: A GPU-Accelerated Domain Specific Language for Board Games [44.45953630612019]
Ludaxはボードゲーム用のドメイン固有言語で、自動的にハードウェアアクセラレーションされたコードにコンパイルされる。我々はLudaxを、RLから認知科学まで、ゲーム研究全般を加速させるツールとして想定している。
論文参考訳（メタデータ） (2025-06-27T20:15:53Z)
NAVIX: Scaling MiniGrid Environments with JAX [17.944645332888335]
JAX における MiniGrid の再実装である NAVIX を紹介します。 NAVIXはバッチモードで20000倍以上の速度向上を実現し、Nvidia A100 80 GBで最大2048エージェントを並行してサポートする。これは実験時間を1週間から15分に短縮し、より高速な設計とよりスケーラブルなRLモデル開発を促進する。
論文参考訳（メタデータ） (2024-07-28T04:39:18Z)
JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文参考訳（メタデータ） (2023-11-16T18:58:43Z)
RL-X: A Deep Reinforcement Learning Library (not only) for RoboCup [0.0]
RL-Xは、自己完結した単一ディレクトリアルゴリズムで柔軟で簡単に拡張できる。 RL-Xは、Stable-Baselines3のような有名なフレームワークと比較して最大4.5倍のスピードアップを達成できる。
論文参考訳（メタデータ） (2023-10-20T10:06:03Z)
Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。 TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文参考訳（メタデータ） (2023-10-12T20:49:15Z)
EnvPool: A Highly Parallel Reinforcement Learning Environment Execution Engine [69.47822647770542]
並列環境の実行はシステム全体の最も遅い部分であるが、ほとんど注意を払わない。 RL環境の並列化設計により,RL環境シミュレーションの高速化を実現した。ハイエンドマシンでは、Atari環境での環境実行で毎秒100万フレーム、MuJoCo環境では毎秒300万フレームを達成する。
論文参考訳（メタデータ） (2022-06-21T17:36:15Z)
ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文参考訳（メタデータ） (2021-12-11T06:31:21Z)
Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文参考訳（メタデータ） (2021-10-30T09:13:39Z)
WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement Learning on a GPU [15.337470862838794]
我々は、単一のGPU上でエンドツーエンドのマルチエージェントRLを実装する、柔軟で軽量で使いやすいオープンソースのRLフレームワークであるWarpDriveを紹介します。我々の設計ではシミュレーションとエージェントを並列に実行し、GPU上に1つのシミュレーションデータストアを配置して安全に更新する。 WarpDriveは、ベンチマークTagシミュレーションにおいて、2000の環境と1000のエージェント(CPU実装と比べて少なくとも100倍高いスループット)で290万の環境ステップ/秒を生成する。
論文参考訳（メタデータ） (2021-08-31T16:59:27Z)
Megaverse: Simulating Embodied Agents at One Million Experiences per Second [75.1191260838366]
私たちは、強化学習と具体化AI研究のための新しい3DシミュレーションプラットフォームであるMegaverseを紹介します。 MegaverseはDeepMind Labより最大70倍速い。私たちはMegaverseを使って、複数の単一エージェントタスクとマルチエージェントタスクからなる新しいベンチマークを構築します。
論文参考訳（メタデータ） (2021-07-17T03:16:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。