論文の概要: PerfectDou: Dominating DouDizhu with Perfect Information Distillation
- arxiv url: http://arxiv.org/abs/2203.16406v7
- Date: Wed, 28 Feb 2024 00:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 19:44:07.058798
- Title: PerfectDou: Dominating DouDizhu with Perfect Information Distillation
- Title(参考訳): PerfectDou: DouDizhuを統括する完璧な情報蒸留
- Authors: Guan Yang, Minghuan Liu, Weijun Hong, Weinan Zhang, Fei Fang, Guangjun
Zeng, Yue Lin
- Abstract要約: 本研究では,現在最先端のDouDizhuAIシステムであるPerfectDouを提案する。
実験では、PerfectDouが既存のAIプログラムをすべて破り、最先端のパフォーマンスを達成する方法と理由を示します。
- 参考スコア(独自算出の注目度): 51.069043489706836
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As a challenging multi-player card game, DouDizhu has recently drawn much
attention for analyzing competition and collaboration in imperfect-information
games. In this paper, we propose PerfectDou, a state-of-the-art DouDizhu AI
system that dominates the game, in an actor-critic framework with a proposed
technique named perfect information distillation. In detail, we adopt a
perfect-training-imperfect-execution framework that allows the agents to
utilize the global information to guide the training of the policies as if it
is a perfect information game and the trained policies can be used to play the
imperfect information game during the actual gameplay. To this end, we
characterize card and game features for DouDizhu to represent the perfect and
imperfect information. To train our system, we adopt proximal policy
optimization with generalized advantage estimation in a parallel training
paradigm. In experiments we show how and why PerfectDou beats all existing AI
programs, and achieves state-of-the-art performance.
- Abstract(参考訳): 挑戦的なマルチプレイヤーカードゲームとして、DouDizhuは最近、不完全な情報ゲームにおける競争やコラボレーションの分析に多くの注目を集めている。
本稿では,ゲームを支配する最先端のdoudizhu aiシステムであるperfectdouを提案する。
詳細は,エージェントがグローバル情報を利用して,まるで完璧な情報ゲームであるかのようにポリシーのトレーニングをガイドし,トレーニングされたポリシーを実際のゲーム中に不完全な情報ゲームをプレイするために使用できる完全学習・不完全実行フレームワークを採用する。
この目的のために,DouDizhuのカードとゲームの特徴を特徴付け,完全かつ不完全な情報を表現する。
システムをトレーニングするために、並列トレーニングパラダイムにおいて、一般化したアドバンテージ推定による近位政策最適化を採用する。
実験では、PerfectDouが既存のAIプログラムをすべて破り、最先端のパフォーマンスを達成する方法と理由を示します。
関連論文リスト
- DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Suspicion-Agent: Playing Imperfect Information Games with Theory of Mind Aware GPT-4 [37.64921394844022]
GPT-4は、大規模受動的データに基づいて訓練された最近の大規模言語モデル(LLM)のブレークスルーであり、その知識検索と推論能力で有名である。
本稿では,不完全な情報ゲームに対するGPT-4の学習知識の適用性について述べる。
本稿では,不完全な情報ゲームにおけるGPT-4の能力を活用する革新的なエージェントであるSuspicion-Agentを紹介する。
論文 参考訳(メタデータ) (2023-09-29T14:30:03Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - DouZero+: Improving DouDizhu AI by Opponent Modeling and Coach-guided
Learning [121.93690719186412]
中国の人気カードゲームであるDouDizhuは、不完全な情報、大きな州空間、コラボレーションの要素、そしてターンからターンへの膨大な移動のために、非常に難しい。
最近、DouDizhu AIシステムであるDouZeroが提案されている。人間の事前知識を抽象化することなく、ディープニューラルネットワークとセルフプレイ手順を備えた従来のモンテカルロ法を用いて訓練されている。
本研究は,DouZeroに対戦型モデリングを導入してDouZeroを強化することを提案するとともに,DouZeroの性能をさらに向上させ,トレーニングプロセスの高速化を図る新しいコーチングネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-06T03:18:17Z) - Student of Games: A unified learning algorithm for both perfect and
imperfect information games [22.97853623156316]
Students of Gamesは、ガイド付き検索、自己学習、ゲーム理論推論を組み合わせたアルゴリズムである。
学生ゲームは,計算能力と近似能力が増大するにつれて,完全プレイに収束し,健全であることを示す。
学生はチェスと囲碁で強い成績を収め、無期限のテキサスホールディングスのポーカーで最強の公開エージェントを破り、スコットランドヤードで最先端のエージェントを倒した。
論文 参考訳(メタデータ) (2021-12-06T17:16:24Z) - DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning [65.00325925262948]
本稿では,概念的にシンプルで効果的なDouDizhu AIシステム,すなわちDouZeroを提案する。
DouZeroは、ディープニューラルネットワーク、アクションエンコーディング、並列アクターによる従来のモンテカルロ法を強化している。
ボットゾーンのリーダーボードでは344人のAIエージェントの中で第1位にランクインした。
論文 参考訳(メタデータ) (2021-06-11T02:45:51Z) - ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep
Reinforcement Learning [2.7178968279054936]
gongzhuというトリックテイクゲームは、contract bridgeに似ているが、ややシンプルだ。
深層強化学習により,textittabula rasaから強いgongzhu ai scrofazeroを訓練する。
本稿では,階層化サンプリング,重み付け,等価クラスに対する積分,ベイズ推論などを含む不完全な情報ゲームのための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-15T12:01:44Z) - From Poincar\'e Recurrence to Convergence in Imperfect Information
Games: Finding Equilibrium via Regularization [49.368421783733815]
モノトーンゲームにおいて,報酬の適応が強い収束保証を与えることを示す。
また、この報酬適応手法を用いて、Nash平衡に正確に収束するアルゴリズムを構築する方法を示す。
論文 参考訳(メタデータ) (2020-02-19T21:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。