論文の概要: Suphx: Mastering Mahjong with Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2003.13590v2
- Date: Wed, 1 Apr 2020 03:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 07:35:09.363396
- Title: Suphx: Mastering Mahjong with Deep Reinforcement Learning
- Title(参考訳): suphx: 深層強化学習によるmahjongのマスタリング
- Authors: Junjie Li, Sotetsu Koyamada, Qiwei Ye, Guoqing Liu, Chao Wang, Ruihan
Yang, Li Zhao, Tao Qin, Tie-Yan Liu, Hsiao-Wuen Hon
- Abstract要約: 我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
- 参考スコア(独自算出の注目度): 114.68233321904623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence (AI) has achieved great success in many domains, and
game AI is widely regarded as its beachhead since the dawn of AI. In recent
years, studies on game AI have gradually evolved from relatively simple
environments (e.g., perfect-information games such as Go, chess, shogi or
two-player imperfect-information games such as heads-up Texas hold'em) to more
complex ones (e.g., multi-player imperfect-information games such as
multi-player Texas hold'em and StartCraft II). Mahjong is a popular
multi-player imperfect-information game worldwide but very challenging for AI
research due to its complex playing/scoring rules and rich hidden information.
We design an AI for Mahjong, named Suphx, based on deep reinforcement learning
with some newly introduced techniques including global reward prediction,
oracle guiding, and run-time policy adaptation. Suphx has demonstrated stronger
performance than most top human players in terms of stable rank and is rated
above 99.99% of all the officially ranked human players in the Tenhou platform.
This is the first time that a computer program outperforms most top human
players in Mahjong.
- Abstract(参考訳): 人工知能(AI)は多くの領域で大きな成功を収めており、ゲームAIはAIの誕生以来、そのビーチヘッドと見なされている。
近年、ゲームAIの研究は、比較的単純な環境(例えば、囲碁、チェス、ショギのような完全情報ゲーム)からより複雑な環境(例えば、マルチプレイヤーのテキサスホールドエムやスタートクラフトIIのようなマルチプレイヤーの不完全情報ゲーム)へと徐々に進化してきた。
Mahjongは世界中のマルチプレイヤーの不完全な情報ゲームだが、複雑なプレイ/スコーリングルールと豊富な隠れ情報のために、AI研究にとって非常に難しい。
私たちは、global reward prediction、oracle guideing、run-time policy adaptationといった新しい技術を使って、深層強化学習に基づいて、mahjongのためのaiを設計します。
suphxは、ほとんどのトッププレイヤーよりも安定したランクで高いパフォーマンスを示しており、天宝プラットフォームにおける公式の人間プレイヤーの99.99%を上回っている。
コンピュータープログラムが麻雀で最も上位の人間プレイヤーを上回ったのは今回が初めてだ。
関連論文リスト
- DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Mastering the Game of Stratego with Model-Free Multiagent Reinforcement
Learning [86.37438204416435]
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。
ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。
DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
論文 参考訳(メタデータ) (2022-06-30T15:53:19Z) - AI in Games: Techniques, Challenges and Opportunities [40.86375378643978]
Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。
本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。
論文 参考訳(メタデータ) (2021-11-15T09:35:53Z) - A User-Centred Framework for Explainable Artificial Intelligence in
Human-Robot Interaction [70.11080854486953]
本稿では,XAIのソーシャル・インタラクティブな側面に着目したユーザ中心型フレームワークを提案する。
このフレームワークは、エキスパートでないユーザのために考えられた対話型XAIソリューションのための構造を提供することを目的としている。
論文 参考訳(メタデータ) (2021-09-27T09:56:23Z) - ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep
Reinforcement Learning [2.7178968279054936]
gongzhuというトリックテイクゲームは、contract bridgeに似ているが、ややシンプルだ。
深層強化学習により,textittabula rasaから強いgongzhu ai scrofazeroを訓練する。
本稿では,階層化サンプリング,重み付け,等価クラスに対する積分,ベイズ推論などを含む不完全な情報ゲームのための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-15T12:01:44Z) - Towards Playing Full MOBA Games with Deep Reinforcement Learning [34.153341961273554]
MOBAゲーム(Honor of Kings、League of Legends、Dota 2など)はAIシステムに大きな課題をもたらす。
そこで本研究では,MOBAAI学習パラダイムを提案する。
論文 参考訳(メタデータ) (2020-11-25T12:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。