論文の概要: Mahjax: A GPU-Accelerated Mahjong Simulator for Reinforcement Learning in JAX
- arxiv url: http://arxiv.org/abs/2605.20577v1
- Date: Wed, 20 May 2026 00:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.417493
- Title: Mahjax: A GPU-Accelerated Mahjong Simulator for Reinforcement Learning in JAX
- Title(参考訳): Mahjax: JAXで強化学習を行うGPUアクセラレーションMahjongシミュレータ
- Authors: Soichiro Nishimori, Shinri Okano, Keigo Habara, Sotetsu Koyamada, Eason Yu, Masashi Sugiyama,
- Abstract要約: リイチ・マヒョン(Riichi Mahjong)は、高次元状態空間と高次元状態空間を特徴とする多人数不完全な情報ゲームである。
JAX で実装された完全ベクトル化された Riichi Mahjong 環境である textbfMahjax を導入し,大規模ロールアウト並列化を実現する。
Mahjaxは1秒あたり最大で60万、60万のスループットを実現しています。
- 参考スコア(独自算出の注目度): 38.43966132249977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Riichi Mahjong is a multi-player, imperfect-information game characterized by stochasticity and high-dimensional state spaces. These attributes present a unique combination of challenges that mirror complex real-world decision-making problems in reinforcement learning. While prior research has heavily relied on supervised learning from human play logs to pre-train the policy, algorithms capable of learning \textit{tabula rasa} (from scratch) offer greater potential for general applicability, as evidenced by the AlphaZero lineage. To facilitate such research, we introduce \textbf{Mahjax}, a fully vectorized Riichi Mahjong environment implemented in JAX to enable large-scale rollout parallelization on Graphics Processing Units (GPUs). We also provide a high-quality visualization tool to streamline debugging and interaction with trained agents. Experimental results demonstrate that Mahjax achieves throughputs of up to \textbf{2 million} and \textbf{1 million steps per second} on eight NVIDIA A100 GPUs under the no-red and red rules, respectively. Furthermore, we validate the environment's utility for reinforcement learning by showing that agents can be trained effectively to improve their rank against baseline policies.
- Abstract(参考訳): リイチ・マヒョン(Riichi Mahjong)は、確率性と高次元状態空間を特徴とする多人数不完全情報ゲームである。
これらの属性は、強化学習における複雑な現実世界の意思決定問題を反映する、ユニークな組み合わせである。
以前の研究では、人間のプレイログからの教師あり学習とポリシーの事前訓練に大きく依存していたが、AlphaZeroの系統によって証明されたように、(スクラッチから)学習可能なアルゴリズムは一般的な適用可能性を高める。
このような研究を容易にするために、JAX で実装された完全にベクトル化された Riichi Mahjong 環境である \textbf{Mahjax} を導入し、グラフィクス処理ユニット(GPU)の大規模ロールアウト並列化を実現する。
また、トレーニングされたエージェントとのデバッグとインタラクションを合理化するための高品質な可視化ツールも提供しています。
実験結果から,Hahjaxは,ノレッドルールとレッドルールの下で,8つのNVIDIA A100 GPU上でそれぞれ最大1秒あたり最大1textbf{200 million} と \textbf{100 million steps} のスループットを達成することが示された。
さらに, エージェントを効果的に訓練し, 基本方針に反するランク向上を図り, 強化学習における環境の有用性を検証した。
関連論文リスト
- JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。
我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。
また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。