論文の概要: DouZero+: Improving DouDizhu AI by Opponent Modeling and Coach-guided
Learning
- arxiv url: http://arxiv.org/abs/2204.02558v1
- Date: Wed, 6 Apr 2022 03:18:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 13:04:59.083533
- Title: DouZero+: Improving DouDizhu AI by Opponent Modeling and Coach-guided
Learning
- Title(参考訳): DouZero+: 対向モデリングとコーチ誘導学習によるDouDizhu AIの改善
- Authors: Youpeng Zhao, Jian Zhao, Xunhan Hu, Wengang Zhou, Houqiang Li
- Abstract要約: 中国の人気カードゲームであるDouDizhuは、不完全な情報、大きな州空間、コラボレーションの要素、そしてターンからターンへの膨大な移動のために、非常に難しい。
最近、DouDizhu AIシステムであるDouZeroが提案されている。人間の事前知識を抽象化することなく、ディープニューラルネットワークとセルフプレイ手順を備えた従来のモンテカルロ法を用いて訓練されている。
本研究は,DouZeroに対戦型モデリングを導入してDouZeroを強化することを提案するとともに,DouZeroの性能をさらに向上させ,トレーニングプロセスの高速化を図る新しいコーチングネットワークを提案する。
- 参考スコア(独自算出の注目度): 121.93690719186412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the great breakthrough of deep reinforcement
learning (DRL) in various perfect and imperfect information games. Among these
games, DouDizhu, a popular card game in China, is very challenging due to the
imperfect information, large state space, elements of collaboration and a
massive number of possible moves from turn to turn. Recently, a DouDizhu AI
system called DouZero has been proposed. Trained using traditional Monte Carlo
method with deep neural networks and self-play procedure without the
abstraction of human prior knowledge, DouZero has outperformed all the existing
DouDizhu AI programs. In this work, we propose to enhance DouZero by
introducing opponent modeling into DouZero. Besides, we propose a novel coach
network to further boost the performance of DouZero and accelerate its training
process. With the integration of the above two techniques into DouZero, our
DouDizhu AI system achieves better performance and ranks top in the Botzone
leaderboard among more than 400 AI agents, including DouZero.
- Abstract(参考訳): 近年、様々な完全かつ不完全な情報ゲームにおいて、深層強化学習(DRL)の大きなブレークスルーが見られた。
これらのゲームの中で、中国で人気のカードゲームであるDouDizhuは、不完全な情報、大きな州空間、コラボレーションの要素、そしてターンからターンへの膨大な移動のために、非常に難しい。
近年,DouZeroと呼ばれるDouDizhu AIシステムが提案されている。
従来のモンテカルロ法とディープニューラルネットワーク、そして人間の事前知識を抽象化しない自己再生手順を使って訓練されたdouzeroは、既存のdoudizhu aiプログラムをすべて上回っている。
本稿では,douzeroに対向モデルを導入することでdouzeroを強化することを提案する。
さらに,DouZeroの性能向上とトレーニングプロセスの高速化を目的とした,新しいコーチングネットワークを提案する。
上記の2つの技術をdouzeroに統合することで、当社のdoudizhu aiシステムは、douzeroを含む400以上のaiエージェントのうち、botzoneのリードボードで上位にランクインします。
関連論文リスト
- AlphaDou: High-Performance End-to-End Doudizhu AI Integrating Bidding [6.177038245239759]
本稿では、強化学習を用いてDeep Monte Carloアルゴリズムの枠組みを変更し、勝利率と期待値を同時に推定するニューラルネットワークを得る。
修正されたアルゴリズムにより、AIは入札やカードプレイを含む、Doudizhuゲームにおける全タスクを実行できる。
論文 参考訳(メタデータ) (2024-07-14T17:32:36Z) - DouRN: Improving DouZero by Residual Neural Networks [1.6013543712340956]
ドゥーディズフ(Doudizhu)は、協力と対立の要素を組み合わせたカードゲームである。
2021年、ドゥーゼロ (DouZero) と呼ばれるドゥーディーシュのプログラムは、モンテカルロ法や多層パーセプトロンを利用することで、それまでの知識のないモデルを超えた。
以上の結果から,本モデルは同一トレーニング時間内での勝利率を有意に向上させることが示された。
論文 参考訳(メタデータ) (2024-03-21T03:25:49Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - PerfectDou: Dominating DouDizhu with Perfect Information Distillation [51.069043489706836]
本研究では,現在最先端のDouDizhuAIシステムであるPerfectDouを提案する。
実験では、PerfectDouが既存のAIプログラムをすべて破り、最先端のパフォーマンスを達成する方法と理由を示します。
論文 参考訳(メタデータ) (2022-03-30T15:37:57Z) - DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning [65.00325925262948]
本稿では,概念的にシンプルで効果的なDouDizhu AIシステム,すなわちDouZeroを提案する。
DouZeroは、ディープニューラルネットワーク、アクションエンコーディング、並列アクターによる従来のモンテカルロ法を強化している。
ボットゾーンのリーダーボードでは344人のAIエージェントの中で第1位にランクインした。
論文 参考訳(メタデータ) (2021-06-11T02:45:51Z) - Combining Off and On-Policy Training in Model-Based Reinforcement
Learning [77.34726150561087]
MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
論文 参考訳(メタデータ) (2021-02-24T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。