論文の概要: DanZero: Mastering GuanDan Game with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.17087v1
- Date: Mon, 31 Oct 2022 06:29:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 15:38:48.925818
- Title: DanZero: Mastering GuanDan Game with Reinforcement Learning
- Title(参考訳): DanZero: 強化学習によるGuanDanゲームのマスタリング
- Authors: Yudong Lu, Jian Zhao, Youpeng Zhao, Wengang Zhou, Houqiang Li
- Abstract要約: カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
- 参考スコア(独自算出の注目度): 121.93690719186412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Card game AI has always been a hot topic in the research of artificial
intelligence. In recent years, complex card games such as Mahjong, DouDizhu and
Texas Hold'em have been solved and the corresponding AI programs have reached
the level of human experts. In this paper, we are devoted to developing an AI
program for a more complex card game, GuanDan, whose rules are similar to
DouDizhu but much more complicated. To be specific, the characteristics of
large state and action space, long length of one episode and the unsure number
of players in the GuanDan pose great challenges for the development of the AI
program. To address these issues, we propose the first AI program DanZero for
GuanDan using reinforcement learning technique. Specifically, we utilize a
distributed framework to train our AI system. In the actor processes, we
carefully design the state features and agents generate samples by self-play.
In the learner process, the model is updated by Deep Monte-Carlo Method. After
training for 30 days using 160 CPUs and 1 GPU, we get our DanZero bot. We
compare it with 8 baseline AI programs which are based on heuristic rules and
the results reveal the outstanding performance of DanZero. We also test DanZero
with human players and demonstrate its human-level performance.
- Abstract(参考訳): カードゲームAIは、人工知能の研究において常にホットな話題となっている。
近年、Mahjong、DouDizhu、Texas Hold'emといった複雑なカードゲームが解決され、対応するAIプログラムは人間の専門家のレベルに達している。
本稿では、より複雑なカードゲーム、guandanのためのaiプログラムの開発に取り組んでおり、ルールはdoudizhuと似ているが、はるかに複雑である。
具体的に言うと、大きな状態とアクション空間の特性、ひとつのエピソードの長さ、GuanDanのプレイヤの数の不確実さは、AIプログラムの開発に大きな課題をもたらします。
これらの課題に対処するために,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
具体的には、分散フレームワークを使用してAIシステムをトレーニングします。
アクタープロセスでは、状態特徴を慎重に設計し、エージェントはセルフプレイでサンプルを生成する。
学習プロセスでは、モデルをDeep Monte-Carlo Methodによって更新する。
160cpuと1gpuを使って30日間トレーニングした後、danzeroボットを取得しました。
我々は、ヒューリスティックなルールに基づく8つのベースラインAIプログラムと比較し、DanZeroの優れたパフォーマンスを明らかにした。
また、DanZeroを人間プレイヤーでテストし、人間レベルのパフォーマンスを示す。
関連論文リスト
- DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - DouZero+: Improving DouDizhu AI by Opponent Modeling and Coach-guided
Learning [121.93690719186412]
中国の人気カードゲームであるDouDizhuは、不完全な情報、大きな州空間、コラボレーションの要素、そしてターンからターンへの膨大な移動のために、非常に難しい。
最近、DouDizhu AIシステムであるDouZeroが提案されている。人間の事前知識を抽象化することなく、ディープニューラルネットワークとセルフプレイ手順を備えた従来のモンテカルロ法を用いて訓練されている。
本研究は,DouZeroに対戦型モデリングを導入してDouZeroを強化することを提案するとともに,DouZeroの性能をさらに向上させ,トレーニングプロセスの高速化を図る新しいコーチングネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-06T03:18:17Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z) - AI in Games: Techniques, Challenges and Opportunities [40.86375378643978]
Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。
本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。
論文 参考訳(メタデータ) (2021-11-15T09:35:53Z) - DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning [65.00325925262948]
本稿では,概念的にシンプルで効果的なDouDizhu AIシステム,すなわちDouZeroを提案する。
DouZeroは、ディープニューラルネットワーク、アクションエンコーディング、並列アクターによる従来のモンテカルロ法を強化している。
ボットゾーンのリーダーボードでは344人のAIエージェントの中で第1位にランクインした。
論文 参考訳(メタデータ) (2021-06-11T02:45:51Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。