論文の概要: Building a 3-Player Mahjong AI using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.12847v1
- Date: Fri, 25 Feb 2022 17:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 15:18:20.921052
- Title: Building a 3-Player Mahjong AI using Deep Reinforcement Learning
- Title(参考訳): 深層強化学習を用いた3人のmahjong aiの構築
- Authors: Xiangyu Zhao, Sean B. Holden
- Abstract要約: 我々は,深層強化学習を用いたサンマのAIであるMeowjongを紹介する。
Meowjongのモデルは、4人のMahjongのAIに匹敵するテスト精度を達成する。
Sanmaで最初のAIである私たちは、Meowjongがこのゲームの最先端技術であると主張している。
- 参考スコア(独自算出の注目度): 9.603486077267693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mahjong is a popular multi-player imperfect-information game developed in
China in the late 19th-century, with some very challenging features for AI
research. Sanma, being a 3-player variant of the Japanese Riichi Mahjong,
possesses unique characteristics including fewer tiles and, consequently, a
more aggressive playing style. It is thus challenging and of great research
interest in its own right, but has not yet been explored. In this paper, we
present Meowjong, an AI for Sanma using deep reinforcement learning. We define
an informative and compact 2-dimensional data structure for encoding the
observable information in a Sanma game. We pre-train 5 convolutional neural
networks (CNNs) for Sanma's 5 actions -- discard, Pon, Kan, Kita and Riichi,
and enhance the major action's model, namely the discard model, via self-play
reinforcement learning using the Monte Carlo policy gradient method. Meowjong's
models achieve test accuracies comparable with AIs for 4-player Mahjong through
supervised learning, and gain a significant further enhancement from
reinforcement learning. Being the first ever AI in Sanma, we claim that
Meowjong stands as a state-of-the-art in this game.
- Abstract(参考訳): Mahjongは、19世紀後半に中国で開発された、人気のマルチプレイヤーの不完全な情報ゲームだ。
三間(さんま)は、日本の理一大乗の3人組の変種であり、タイルが少ないなど独特の特徴を持ち、より攻撃的な演奏スタイルである。
したがって、これは挑戦的であり、それ自体は大きな研究関心を持っているが、まだ調査されていない。
本稿では,深層強化学習を用いたサンマのためのAIであるMeowjongを紹介する。
我々は,sanmaゲームにおける可観測情報をエンコードするための情報的かつコンパクトな2次元データ構造を定義する。
我々は,サンマの5つの行動のための5つの畳み込みニューラルネットワーク(CNN)を事前訓練し,モンテカルロ政策勾配法による自己再生強化学習を通じて,主要な行動モデル,すなわち捨てモデルを強化する。
meowjongのモデルは、教師付き学習を通じて4人のmahjongのaisに匹敵するテスト能力を達成し、強化学習から大幅に強化される。
Sanmaで最初のAIである私たちは、Meowjongがこのゲームの最先端技術であると主張している。
関連論文リスト
- Reinforcement Learning for High-Level Strategic Control in Tower Defense Games [47.618236610219554]
戦略ゲームにおいて、ゲームデザインの最も重要な側面の1つは、プレイヤーにとっての挑戦の感覚を維持することである。
従来のスクリプティング手法と強化学習を組み合わせた自動手法を提案する。
その結果、強化学習のような学習アプローチとスクリプトAIを組み合わせることで、AIのみを使用するよりも高性能で堅牢なエージェントが生まれることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:06:31Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning [65.00325925262948]
本稿では,概念的にシンプルで効果的なDouDizhu AIシステム,すなわちDouZeroを提案する。
DouZeroは、ディープニューラルネットワーク、アクションエンコーディング、並列アクターによる従来のモンテカルロ法を強化している。
ボットゾーンのリーダーボードでは344人のAIエージェントの中で第1位にランクインした。
論文 参考訳(メタデータ) (2021-06-11T02:45:51Z) - ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep
Reinforcement Learning [2.7178968279054936]
gongzhuというトリックテイクゲームは、contract bridgeに似ているが、ややシンプルだ。
深層強化学習により,textittabula rasaから強いgongzhu ai scrofazeroを訓練する。
本稿では,階層化サンプリング,重み付け,等価クラスに対する積分,ベイズ推論などを含む不完全な情報ゲームのための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-15T12:01:44Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。