論文の概要: DanZero+: Dominating the GuanDan Game through Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.02561v1
- Date: Tue, 5 Dec 2023 08:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:29:57.624130
- Title: DanZero+: Dominating the GuanDan Game through Reinforcement Learning
- Title(参考訳): DanZero+:強化学習によるGuanDanゲームの支配
- Authors: Youpeng Zhao and Yudong Lu and Jian Zhao and Wengang Zhou and Houqiang
Li
- Abstract要約: 我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
- 参考スコア(独自算出の注目度): 95.90682269990705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The utilization of artificial intelligence (AI) in card games has been a
well-explored subject within AI research for an extensive period. Recent
advancements have propelled AI programs to showcase expertise in intricate card
games such as Mahjong, DouDizhu, and Texas Hold'em. In this work, we aim to
develop an AI program for an exceptionally complex and popular card game called
GuanDan. This game involves four players engaging in both competitive and
cooperative play throughout a long process to upgrade their level, posing great
challenges for AI due to its expansive state and action space, long episode
length, and complex rules. Employing reinforcement learning techniques,
specifically Deep Monte Carlo (DMC), and a distributed training framework, we
first put forward an AI program named DanZero for this game. Evaluation against
baseline AI programs based on heuristic rules highlights the outstanding
performance of our bot. Besides, in order to further enhance the AI's
capabilities, we apply policy-based reinforcement learning algorithm to
GuanDan. To address the challenges arising from the huge action space, which
will significantly impact the performance of policy-based algorithms, we adopt
the pre-trained model to facilitate the training process and the achieved AI
program manages to achieve a superior performance.
- Abstract(参考訳): カードゲームにおける人工知能(AI)の利用は、広範囲にわたるAI研究においてよく研究されている課題である。
近年の進歩により、AIプログラムはMahjong、DouDizhu、Texas Hold'emといった複雑なカードゲームに関する専門知識を誇示している。
本研究では,GuanDanという,非常に複雑で人気のあるカードゲームのためのAIプログラムの開発を目指す。
このゲームは、4人のプレーヤーが長いプロセスを通して競争と協力の両方に関わり、そのレベルをアップグレードし、その拡張状態とアクション空間、長いエピソードの長さ、複雑なルールのためにAIにとって大きな課題を提起する。
強化学習技術,特にDeep Monte Carlo(DMC)と分散トレーニングフレームワークを活用して,DanZeroという名のAIプログラムをこのゲームに導入しました。
ヒューリスティックルールに基づくベースラインAIプログラムに対する評価は、ボットの優れたパフォーマンスを強調している。
さらに,AIの能力をさらに向上するために,政策に基づく強化学習アルゴリズムをGuanDanに適用する。
ポリシーベースのアルゴリズムのパフォーマンスに大きく影響を与える巨大なアクション空間から生じる課題に対処するために、トレーニングプロセスを促進するために事前訓練されたモデルを採用し、達成されたAIプログラムが優れたパフォーマンスを達成することができた。
関連論文リスト
- Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - AI in Games: Techniques, Challenges and Opportunities [40.86375378643978]
Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。
本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。
論文 参考訳(メタデータ) (2021-11-15T09:35:53Z) - DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning [65.00325925262948]
本稿では,概念的にシンプルで効果的なDouDizhu AIシステム,すなわちDouZeroを提案する。
DouZeroは、ディープニューラルネットワーク、アクションエンコーディング、並列アクターによる従来のモンテカルロ法を強化している。
ボットゾーンのリーダーボードでは344人のAIエージェントの中で第1位にランクインした。
論文 参考訳(メタデータ) (2021-06-11T02:45:51Z) - ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep
Reinforcement Learning [2.7178968279054936]
gongzhuというトリックテイクゲームは、contract bridgeに似ているが、ややシンプルだ。
深層強化学習により,textittabula rasaから強いgongzhu ai scrofazeroを訓練する。
本稿では,階層化サンプリング,重み付け,等価クラスに対する積分,ベイズ推論などを含む不完全な情報ゲームのための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-15T12:01:44Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z) - From Chess and Atari to StarCraft and Beyond: How Game AI is Driving the
World of AI [10.80914659291096]
Game AIは、最も先進的なAIアルゴリズムを開発し、テストするための研究分野として、自らを確立した。
Game AIの進歩は、ロボティクスや化学物質の合成など、ゲーム以外の領域にも拡張され始めている。
論文 参考訳(メタデータ) (2020-02-24T18:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。