論文の概要: AlphaDou: High-Performance End-to-End Doudizhu AI Integrating Bidding
- arxiv url: http://arxiv.org/abs/2407.10279v1
- Date: Sun, 14 Jul 2024 17:32:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 18:49:26.832987
- Title: AlphaDou: High-Performance End-to-End Doudizhu AI Integrating Bidding
- Title(参考訳): AlphaDou: ハイパフォーマンスなエンドツーエンドのDoudizhu AI統合バイディング
- Authors: Chang Lei, Huan Lei,
- Abstract要約: 本稿では、強化学習を用いてDeep Monte Carloアルゴリズムの枠組みを変更し、勝利率と期待値を同時に推定するニューラルネットワークを得る。
このRLモデルは、現実的なDouDiZhu環境で訓練され、公開モデルの最先端レベルを達成する。
- 参考スコア(独自算出の注目度): 6.177038245239759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial intelligence for card games has long been a popular topic in AI research. In recent years, complex card games like Mahjong and Texas Hold'em have been solved, with corresponding AI programs reaching the level of human experts. However, the game of Dou Di Zhu presents significant challenges due to its vast state/action space and unique characteristics involving reasoning about competition and cooperation, making the game extremely difficult to solve.The RL model DouZero, trained using the Deep Monte Carlo algorithm framework, has shown excellent performance in DouDiZhu. However, there are differences between its simplified game environment and the actual Dou Di Zhu environment, and its performance is still a considerable distance from that of human experts. This paper modifies the Deep Monte Carlo algorithm framework by using reinforcement learning to obtain a neural network that simultaneously estimates win rates and expectations. The action space is pruned using expectations, and strategies are generated based on win rates. This RL model is trained in a realistic DouDiZhu environment and achieves a state-of-the-art level among publicly available models.
- Abstract(参考訳): カードゲームのための人工知能は、長い間AI研究で人気のあるトピックだった。
近年、MahjongやTexas Hold'emのような複雑なカードゲームが解決され、対応するAIプログラムが人間の専門家のレベルに達している。
しかし、Dou Di Zhuのゲームは、その膨大な状態/行動空間と、競争と協力についての推論に関するユニークな特徴により、ゲームが極めて難解になるため、DouZeroはDeep Monte Carloアルゴリズムフレームワークを使用してトレーニングされ、DouDiZhuで優れたパフォーマンスを示している。
しかし、単純化されたゲーム環境と実際のDou Di Zhu環境の間には違いがあり、その性能は人間の専門家とはかなり離れている。
本稿では、強化学習を用いてDeep Monte Carloアルゴリズムの枠組みを変更し、勝利率と期待値を同時に推定するニューラルネットワークを得る。
アクション空間は期待に基づいて刈り取られ、勝利率に基づいて戦略が生成される。
このRLモデルは、現実的なDouDiZhu環境で訓練され、公開モデルの最先端レベルを達成する。
関連論文リスト
- Mastering the Game of Guandan with Deep Reinforcement Learning and
Behavior Regulating [16.718186690675164]
我々は,グアンダンのゲームをマスターするAIエージェントのためのフレームワークGuanZeroを提案する。
本論文の主な貢献は、注意深く設計されたニューラルネットワーク符号化方式によるエージェントの動作の制御である。
論文 参考訳(メタデータ) (2024-02-21T07:26:06Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - DouZero+: Improving DouDizhu AI by Opponent Modeling and Coach-guided
Learning [121.93690719186412]
中国の人気カードゲームであるDouDizhuは、不完全な情報、大きな州空間、コラボレーションの要素、そしてターンからターンへの膨大な移動のために、非常に難しい。
最近、DouDizhu AIシステムであるDouZeroが提案されている。人間の事前知識を抽象化することなく、ディープニューラルネットワークとセルフプレイ手順を備えた従来のモンテカルロ法を用いて訓練されている。
本研究は,DouZeroに対戦型モデリングを導入してDouZeroを強化することを提案するとともに,DouZeroの性能をさらに向上させ,トレーニングプロセスの高速化を図る新しいコーチングネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-06T03:18:17Z) - DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning [65.00325925262948]
本稿では,概念的にシンプルで効果的なDouDizhu AIシステム,すなわちDouZeroを提案する。
DouZeroは、ディープニューラルネットワーク、アクションエンコーディング、並列アクターによる従来のモンテカルロ法を強化している。
ボットゾーンのリーダーボードでは344人のAIエージェントの中で第1位にランクインした。
論文 参考訳(メタデータ) (2021-06-11T02:45:51Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Enhanced Rolling Horizon Evolution Algorithm with Opponent Model
Learning: Results for the Fighting Game AI Competition [9.75720700239984]
本稿では,RHEA(Rolling Horizon Evolution Algorithm)と対向モデル学習を組み合わせた新しいアルゴリズムを提案する。
2019年の競争で上位5つのボットのうち、モンテカルロツリーサーチ(MCTS)を使用しないボットは、ポリシーグラディエントベースの対戦モデルによるボットのみである。
論文 参考訳(メタデータ) (2020-03-31T04:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。