論文の概要: DanZero+: Dominating the GuanDan Game through Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.02561v1
- Date: Tue, 5 Dec 2023 08:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:29:57.624130
- Title: DanZero+: Dominating the GuanDan Game through Reinforcement Learning
- Title(参考訳): DanZero+:強化学習によるGuanDanゲームの支配
- Authors: Youpeng Zhao and Yudong Lu and Jian Zhao and Wengang Zhou and Houqiang
Li
- Abstract要約: 我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
- 参考スコア(独自算出の注目度): 95.90682269990705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The utilization of artificial intelligence (AI) in card games has been a
well-explored subject within AI research for an extensive period. Recent
advancements have propelled AI programs to showcase expertise in intricate card
games such as Mahjong, DouDizhu, and Texas Hold'em. In this work, we aim to
develop an AI program for an exceptionally complex and popular card game called
GuanDan. This game involves four players engaging in both competitive and
cooperative play throughout a long process to upgrade their level, posing great
challenges for AI due to its expansive state and action space, long episode
length, and complex rules. Employing reinforcement learning techniques,
specifically Deep Monte Carlo (DMC), and a distributed training framework, we
first put forward an AI program named DanZero for this game. Evaluation against
baseline AI programs based on heuristic rules highlights the outstanding
performance of our bot. Besides, in order to further enhance the AI's
capabilities, we apply policy-based reinforcement learning algorithm to
GuanDan. To address the challenges arising from the huge action space, which
will significantly impact the performance of policy-based algorithms, we adopt
the pre-trained model to facilitate the training process and the achieved AI
program manages to achieve a superior performance.
- Abstract(参考訳): カードゲームにおける人工知能(AI)の利用は、広範囲にわたるAI研究においてよく研究されている課題である。
近年の進歩により、AIプログラムはMahjong、DouDizhu、Texas Hold'emといった複雑なカードゲームに関する専門知識を誇示している。
本研究では,GuanDanという,非常に複雑で人気のあるカードゲームのためのAIプログラムの開発を目指す。
このゲームは、4人のプレーヤーが長いプロセスを通して競争と協力の両方に関わり、そのレベルをアップグレードし、その拡張状態とアクション空間、長いエピソードの長さ、複雑なルールのためにAIにとって大きな課題を提起する。
強化学習技術,特にDeep Monte Carlo(DMC)と分散トレーニングフレームワークを活用して,DanZeroという名のAIプログラムをこのゲームに導入しました。
ヒューリスティックルールに基づくベースラインAIプログラムに対する評価は、ボットの優れたパフォーマンスを強調している。
さらに,AIの能力をさらに向上するために,政策に基づく強化学習アルゴリズムをGuanDanに適用する。
ポリシーベースのアルゴリズムのパフォーマンスに大きく影響を与える巨大なアクション空間から生じる課題に対処するために、トレーニングプロセスを促進するために事前訓練されたモデルを採用し、達成されたAIプログラムが優れたパフォーマンスを達成することができた。
関連論文リスト
- You Have Thirteen Hours in Which to Solve the Labyrinth: Enhancing AI Game Masters with Function Calling [35.721053667746716]
本稿では,テーブルトップロールプレイングゲーム "Jim Henson's Labyrinth: The Adventure Game" のコンテキストにおける関数呼び出しを活用することで,AIゲームマスタを強化する新たなアプローチを提案する。
本手法は,AIゲームマスタの物語的品質と状態更新の整合性の向上を示す関数を通じてゲーム固有の制御を統合することを含む。
論文 参考訳(メタデータ) (2024-09-11T02:03:51Z) - AlphaDou: High-Performance End-to-End Doudizhu AI Integrating Bidding [6.177038245239759]
本稿では、強化学習を用いてDeep Monte Carloアルゴリズムの枠組みを変更し、勝利率と期待値を同時に推定するニューラルネットワークを得る。
修正されたアルゴリズムにより、AIは入札やカードプレイを含む、Doudizhuゲームにおける全タスクを実行できる。
論文 参考訳(メタデータ) (2024-07-14T17:32:36Z) - Reinforcement Learning for High-Level Strategic Control in Tower Defense Games [47.618236610219554]
戦略ゲームにおいて、ゲームデザインの最も重要な側面の1つは、プレイヤーにとっての挑戦の感覚を維持することである。
従来のスクリプティング手法と強化学習を組み合わせた自動手法を提案する。
その結果、強化学習のような学習アプローチとスクリプトAIを組み合わせることで、AIのみを使用するよりも高性能で堅牢なエージェントが生まれることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:06:31Z) - Exploration with Principles for Diverse AI Supervision [88.61687950039662]
次世代の予測を用いた大規模トランスフォーマーのトレーニングは、AIの画期的な進歩を生み出した。
この生成AIアプローチは印象的な結果をもたらしたが、人間の監督に大きく依存している。
この人間の監視への強い依存は、AIイノベーションの進歩に重大なハードルをもたらす。
本稿では,高品質なトレーニングデータを自律的に生成することを目的とした,探索型AI(EAI)という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:03:39Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - AI in Games: Techniques, Challenges and Opportunities [40.86375378643978]
Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。
本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。
論文 参考訳(メタデータ) (2021-11-15T09:35:53Z) - ScrofaZero: Mastering Trick-taking Poker Game Gongzhu by Deep
Reinforcement Learning [2.7178968279054936]
gongzhuというトリックテイクゲームは、contract bridgeに似ているが、ややシンプルだ。
深層強化学習により,textittabula rasaから強いgongzhu ai scrofazeroを訓練する。
本稿では,階層化サンプリング,重み付け,等価クラスに対する積分,ベイズ推論などを含む不完全な情報ゲームのための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-15T12:01:44Z) - Suphx: Mastering Mahjong with Deep Reinforcement Learning [114.68233321904623]
我々は、新たに導入されたいくつかの技術を用いた深層強化学習に基づいて、Suphxという名のマフジョンのためのAIを設計する。
Suphxは、安定したランクの点で、ほとんどのトップの人間プレイヤーよりも強いパフォーマンスを示している。
コンピュータプログラムがマヒョンで最上位の人間プレイヤーを上回るのは、これが初めてである。
論文 参考訳(メタデータ) (2020-03-30T16:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。