論文の概要: ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.07495v1
- Date: Mon, 15 Feb 2021 12:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:27:54.639508
- Title: ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep
Reinforcement Learning
- Title(参考訳): ScrofaZero:深層強化学習によるトリックテイクポーカーゲームGongzhuを習得する
- Authors: Naichen Shi and Ruichen Li and Sun Youran
- Abstract要約: gongzhuというトリックテイクゲームは、contract bridgeに似ているが、ややシンプルだ。
深層強化学習により,textittabula rasaから強いgongzhu ai scrofazeroを訓練する。
本稿では,階層化サンプリング,重み付け,等価クラスに対する積分,ベイズ推論などを含む不完全な情報ゲームのための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 2.7178968279054936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People have made remarkable progress in game AIs, especially in domain of
perfect information game. However, trick-taking poker game, as a popular form
of imperfect information game, has been regarded as a challenge for a long
time. Since trick-taking game requires high level of not only reasoning, but
also inference to excel, it can be a new milestone for imperfect information
game AI. We study Gongzhu, a trick-taking game analogous to, but slightly
simpler than contract bridge. Nonetheless, the strategies of Gongzhu are
complex enough for both human and computer players. We train a strong Gongzhu
AI ScrofaZero from \textit{tabula rasa} by deep reinforcement learning, while
few previous efforts on solving trick-taking poker game utilize the
representation power of neural networks. Also, we introduce new techniques for
imperfect information game including stratified sampling, importance weighting,
integral over equivalent class, Bayesian inference, etc. Our AI can achieve
human expert level performance. The methodologies in building our program can
be easily transferred into a wide range of trick-taking games.
- Abstract(参考訳): 人々は、特に完璧な情報ゲームの分野で、ゲームAIで驚くべき進歩を遂げました。
しかし、不完全な情報ゲームの人気のある形態としてのトリックテイクポーカーゲームは、長い間チャレンジと見なされてきた。
トリックテイクゲームは推論だけでなく推論も高いレベルを必要とするため、不完全な情報ゲームAIの新たなマイルストーンとなる可能性があります。
gongzhuというトリックテイクゲームは、contract bridgeに似ているが、ややシンプルだ。
それでも、Gongzhuの戦略は人間とコンピュータのプレイヤーにとって十分複雑である。
深層強化学習により、強固なgongzhu ai scrofazero を \textit{tabula rasa} から訓練する一方で、ニューラルネットワークの表現力を利用したトリックテイクポーカーゲームに対する以前の取り組みはほとんどない。
また,階層化サンプリング,重要度重み付け,等価クラスへの積分,ベイズ推論などを含む不完全情報ゲームのための新しい手法を提案する。
当社のAIは、人間のエキスパートレベルのパフォーマンスを達成できます。
プログラム構築の方法論は,様々なトリックテイクゲームに容易に移行することができる。
関連論文リスト
- Reinforcement Learning for High-Level Strategic Control in Tower Defense Games [47.618236610219554]
戦略ゲームにおいて、ゲームデザインの最も重要な側面の1つは、プレイヤーにとっての挑戦の感覚を維持することである。
従来のスクリプティング手法と強化学習を組み合わせた自動手法を提案する。
その結果、強化学習のような学習アプローチとスクリプトAIを組み合わせることで、AIのみを使用するよりも高性能で堅牢なエージェントが生まれることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:06:31Z) - PokerGPT: An End-to-End Lightweight Solver for Multi-Player Texas
Hold'em via Large Language Model [14.14786217204364]
ポーカーはテキサスホールディング(Texas Hold'em)としても知られており、不完全な情報ゲーム(IIG)における典型的な研究対象となっている。
我々はテキサスホールドエムを任意の数のプレイヤーでプレイし、高い勝利率を得るためのエンドツーエンドの解法であるポーカーGPTを紹介する。
論文 参考訳(メタデータ) (2024-01-04T13:27:50Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - Mastering the Game of Stratego with Model-Free Multiagent Reinforcement
Learning [86.37438204416435]
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。
ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。
DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
論文 参考訳(メタデータ) (2022-06-30T15:53:19Z) - Applying supervised and reinforcement learning methods to create
neural-network-based agents for playing StarCraft II [0.0]
本稿では,汎用的な教師付き強化学習でトレーニングしたStarCraft IIのフル2プレーヤマッチングを実現するニューラルネットワークアーキテクチャを提案する。
本実装では,ゲーム内スクリプトボットと比較して,非自明な性能を実現している。
論文 参考訳(メタデータ) (2021-09-26T20:08:10Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。