論文の概要: DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2106.06135v1
- Date: Fri, 11 Jun 2021 02:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:32:36.605865
- Title: DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning
- Title(参考訳): DouZero: DouDizhuをセルフプレイの深層強化学習で習得する
- Authors: Daochen Zha, Jingru Xie, Wenye Ma, Sheng Zhang, Xiangru Lian, Xia Hu,
Ji Liu
- Abstract要約: 本稿では,概念的にシンプルで効果的なDouDizhu AIシステム,すなわちDouZeroを提案する。
DouZeroは、ディープニューラルネットワーク、アクションエンコーディング、並列アクターによる従来のモンテカルロ法を強化している。
ボットゾーンのリーダーボードでは344人のAIエージェントの中で第1位にランクインした。
- 参考スコア(独自算出の注目度): 65.00325925262948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Games are abstractions of the real world, where artificial agents learn to
compete and cooperate with other agents. While significant achievements have
been made in various perfect- and imperfect-information games, DouDizhu (a.k.a.
Fighting the Landlord), a three-player card game, is still unsolved. DouDizhu
is a very challenging domain with competition, collaboration, imperfect
information, large state space, and particularly a massive set of possible
actions where the legal actions vary significantly from turn to turn.
Unfortunately, modern reinforcement learning algorithms mainly focus on simple
and small action spaces, and not surprisingly, are shown not to make
satisfactory progress in DouDizhu. In this work, we propose a conceptually
simple yet effective DouDizhu AI system, namely DouZero, which enhances
traditional Monte-Carlo methods with deep neural networks, action encoding, and
parallel actors. Starting from scratch in a single server with four GPUs,
DouZero outperformed all the existing DouDizhu AI programs in days of training
and was ranked the first in the Botzone leaderboard among 344 AI agents.
Through building DouZero, we show that classic Monte-Carlo methods can be made
to deliver strong results in a hard domain with a complex action space. The
code and an online demo are released at https://github.com/kwai/DouZero with
the hope that this insight could motivate future work.
- Abstract(参考訳): ゲームは、人工エージェントが他のエージェントと競争し協力することを学ぶ現実世界の抽象化である。
様々な完全・不完全情報ゲームにおいて重要な成果が得られたが、ドゥーディズフ(DouDizhu、DouDizhu)である。
3人プレイのカードゲームであるFighting the Landlordは未解決のままである。
DouDizhuは競争、コラボレーション、不完全な情報、大規模な国家空間、そして特に法的な行動がターンからターンに大きく異なる可能性のある巨大な行動の集合を持つ非常に困難なドメインである。
残念なことに、現代の強化学習アルゴリズムは、主に単純で小さなアクション空間に焦点を当てているが、驚くことではない。
本研究では,従来のモンテカルロ法を深層ニューラルネットワーク,アクションエンコーディング,並列アクタで拡張する,概念的にシンプルで効果的なDouDizhu AIシステムであるDouZeroを提案する。
DouZeroは、4つのGPUを持つ単一のサーバでゼロから始まり、トレーニングの日々で既存のDouDizhu AIプログラムを上回り、344のAIエージェントの中でBotzoneのリーダーボードにランクインした。
DouZero の構築を通じて、モンテカルロ法は複雑な作用空間を持つハードドメインにおいて強い結果をもたらすことができることを示す。
コードとオンラインデモはhttps://github.com/kwai/DouZeroで公開されており、この洞察が今後の作業の動機になることを期待している。
関連論文リスト
- AlphaDou: High-Performance End-to-End Doudizhu AI Integrating Bidding [6.177038245239759]
本稿では、強化学習を用いてDeep Monte Carloアルゴリズムの枠組みを変更し、勝利率と期待値を同時に推定するニューラルネットワークを得る。
このRLモデルは、現実的なDouDiZhu環境で訓練され、公開モデルの最先端レベルを達成する。
論文 参考訳(メタデータ) (2024-07-14T17:32:36Z) - DouRN: Improving DouZero by Residual Neural Networks [1.6013543712340956]
ドゥーディズフ(Doudizhu)は、協力と対立の要素を組み合わせたカードゲームである。
2021年、ドゥーゼロ (DouZero) と呼ばれるドゥーディーシュのプログラムは、モンテカルロ法や多層パーセプトロンを利用することで、それまでの知識のないモデルを超えた。
以上の結果から,本モデルは同一トレーニング時間内での勝利率を有意に向上させることが示された。
論文 参考訳(メタデータ) (2024-03-21T03:25:49Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - DouZero+: Improving DouDizhu AI by Opponent Modeling and Coach-guided
Learning [121.93690719186412]
中国の人気カードゲームであるDouDizhuは、不完全な情報、大きな州空間、コラボレーションの要素、そしてターンからターンへの膨大な移動のために、非常に難しい。
最近、DouDizhu AIシステムであるDouZeroが提案されている。人間の事前知識を抽象化することなく、ディープニューラルネットワークとセルフプレイ手順を備えた従来のモンテカルロ法を用いて訓練されている。
本研究は,DouZeroに対戦型モデリングを導入してDouZeroを強化することを提案するとともに,DouZeroの性能をさらに向上させ,トレーニングプロセスの高速化を図る新しいコーチングネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-06T03:18:17Z) - PerfectDou: Dominating DouDizhu with Perfect Information Distillation [51.069043489706836]
本研究では,現在最先端のDouDizhuAIシステムであるPerfectDouを提案する。
実験では、PerfectDouが既存のAIプログラムをすべて破り、最先端のパフォーマンスを達成する方法と理由を示します。
論文 参考訳(メタデータ) (2022-03-30T15:37:57Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。