論文の概要: DouRN: Improving DouZero by Residual Neural Networks
- arxiv url: http://arxiv.org/abs/2403.14102v1
- Date: Thu, 21 Mar 2024 03:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 15:36:52.238263
- Title: DouRN: Improving DouZero by Residual Neural Networks
- Title(参考訳): DouRN: 残留ニューラルネットワークによるDouZeroの改善
- Authors: Yiquan Chen, Yingchao Lyu, Di Zhang,
- Abstract要約: ドゥーディズフ(Doudizhu)は、協力と対立の要素を組み合わせたカードゲームである。
2021年、ドゥーゼロ (DouZero) と呼ばれるドゥーディーシュのプログラムは、モンテカルロ法や多層パーセプトロンを利用することで、それまでの知識のないモデルを超えた。
以上の結果から,本モデルは同一トレーニング時間内での勝利率を有意に向上させることが示された。
- 参考スコア(独自算出の注目度): 1.6013543712340956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning has made significant progress in games with imperfect information, but its performance in the card game Doudizhu (Chinese Poker/Fight the Landlord) remains unsatisfactory. Doudizhu is different from conventional games as it involves three players and combines elements of cooperation and confrontation, resulting in a large state and action space. In 2021, a Doudizhu program called DouZero\cite{zha2021douzero} surpassed previous models without prior knowledge by utilizing traditional Monte Carlo methods and multilayer perceptrons. Building on this work, our study incorporates residual networks into the model, explores different architectural designs, and conducts multi-role testing. Our findings demonstrate that this model significantly improves the winning rate within the same training time. Additionally, we introduce a call scoring system to assist the agent in deciding whether to become a landlord. With these enhancements, our model consistently outperforms the existing version of DouZero and even experienced human players. \footnote{The source code is available at \url{https://github.com/Yingchaol/Douzero_Resnet.git.}
- Abstract(参考訳): 深層強化学習は不完全な情報を持つゲームにおいて大きな進歩を遂げているが、カードゲーム『Doudizhu』(中国ポーカー/フィット・ザ・ロードロード)のパフォーマンスは相変わらず不満足である。
ドゥーディズフは従来のゲームと異なり、3人のプレイヤーが参加し、協力と対立の要素が組み合わさり、大きな状態と行動空間をもたらす。
2021年、DouZero\cite{zha2021douzero} と呼ばれるドゥーディーシュのプログラムは、従来のモンテカルロ法と多層パーセプトロンを利用することで、事前の知識なしに以前のモデルを上回った。
本研究は, 残余ネットワークをモデルに組み込み, 異なるアーキテクチャ設計を探索し, マルチロールテストを行う。
以上の結果から,本モデルは同一トレーニング時間内での勝利率を有意に向上させることが示された。
さらに,家主になるかどうかを判断するエージェントを支援するコールスコアシステムも導入する。
これらの強化により、我々のモデルはDouZeroの既存のバージョンと経験豊富な人間のプレイヤーよりも一貫して優れています。
ソースコードは \url{https://github.com/Yingchaol/Douzero_Resnet.git で公開されている。
※
関連論文リスト
- AlphaDou: High-Performance End-to-End Doudizhu AI Integrating Bidding [6.177038245239759]
本稿では、強化学習を用いてDeep Monte Carloアルゴリズムの枠組みを変更し、勝利率と期待値を同時に推定するニューラルネットワークを得る。
このRLモデルは、現実的なDouDiZhu環境で訓練され、公開モデルの最先端レベルを達成する。
論文 参考訳(メタデータ) (2024-07-14T17:32:36Z) - Emergent World Models and Latent Variable Estimation in Chess-Playing Language Models [0.0]
我々は,Othelloゲーム上でGPTモデルをトレーニングし,ボード状態の内部表現を学習した。
この作業をチェスのより複雑な領域に拡張し、実際のゲームでトレーニングし、モデルの内部表現を調査します。
Li et al. の以前の合成データセットアプローチとは異なり、我々の分析では、このモデルがプレイヤースキルのような潜伏変数を推定し、次のキャラクタをより正確に予測する方法も学んでいる。
論文 参考訳(メタデータ) (2024-03-21T18:53:23Z) - DanZero: Mastering GuanDan Game with Reinforcement Learning [121.93690719186412]
カードゲームAIは、人工知能の研究において常にホットな話題となっている。
本稿では,より複雑なカードゲームであるGuanDanのためのAIプログラムの開発に専念する。
そこで我々は,強化学習技術を用いたGuanDanのためのAIプログラムDanZeroを提案する。
論文 参考訳(メタデータ) (2022-10-31T06:29:08Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - WinoGAViL: Gamified Association Benchmark to Challenge
Vision-and-Language Models [91.92346150646007]
本研究では,視覚・言語関係を収集するオンラインゲームであるWinoGAViLを紹介する。
私たちはこのゲームを使って3.5Kのインスタンスを収集し、それらが人間には直感的だが最先端のAIモデルには挑戦的であることを発見した。
我々の分析とプレイヤーからのフィードバックは、収集された協会が多様な推論スキルを必要とすることを示している。
論文 参考訳(メタデータ) (2022-07-25T23:57:44Z) - DouZero+: Improving DouDizhu AI by Opponent Modeling and Coach-guided
Learning [121.93690719186412]
中国の人気カードゲームであるDouDizhuは、不完全な情報、大きな州空間、コラボレーションの要素、そしてターンからターンへの膨大な移動のために、非常に難しい。
最近、DouDizhu AIシステムであるDouZeroが提案されている。人間の事前知識を抽象化することなく、ディープニューラルネットワークとセルフプレイ手順を備えた従来のモンテカルロ法を用いて訓練されている。
本研究は,DouZeroに対戦型モデリングを導入してDouZeroを強化することを提案するとともに,DouZeroの性能をさらに向上させ,トレーニングプロセスの高速化を図る新しいコーチングネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-06T03:18:17Z) - DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning [65.00325925262948]
本稿では,概念的にシンプルで効果的なDouDizhu AIシステム,すなわちDouZeroを提案する。
DouZeroは、ディープニューラルネットワーク、アクションエンコーディング、並列アクターによる従来のモンテカルロ法を強化している。
ボットゾーンのリーダーボードでは344人のAIエージェントの中で第1位にランクインした。
論文 参考訳(メタデータ) (2021-06-11T02:45:51Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。