論文の概要: Enhanced Rolling Horizon Evolution Algorithm with Opponent Model
Learning: Results for the Fighting Game AI Competition
- arxiv url: http://arxiv.org/abs/2003.13949v1
- Date: Tue, 31 Mar 2020 04:44:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:12:24.043343
- Title: Enhanced Rolling Horizon Evolution Algorithm with Opponent Model
Learning: Results for the Fighting Game AI Competition
- Title(参考訳): 対向モデル学習によるローリング水平進化アルゴリズムの強化:ファイティングゲームAIコンペティションの結果
- Authors: Zhentao Tang, Yuanheng Zhu, Dongbin Zhao, Simon M. Lucas
- Abstract要約: 本稿では,RHEA(Rolling Horizon Evolution Algorithm)と対向モデル学習を組み合わせた新しいアルゴリズムを提案する。
2019年の競争で上位5つのボットのうち、モンテカルロツリーサーチ(MCTS)を使用しないボットは、ポリシーグラディエントベースの対戦モデルによるボットのみである。
- 参考スコア(独自算出の注目度): 9.75720700239984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Fighting Game AI Competition (FTGAIC) provides a challenging benchmark
for 2-player video game AI. The challenge arises from the large action space,
diverse styles of characters and abilities, and the real-time nature of the
game. In this paper, we propose a novel algorithm that combines Rolling Horizon
Evolution Algorithm (RHEA) with opponent model learning. The approach is
readily applicable to any 2-player video game. In contrast to conventional
RHEA, an opponent model is proposed and is optimized by supervised learning
with cross-entropy and reinforcement learning with policy gradient and
Q-learning respectively, based on history observations from opponent. The model
is learned during the live gameplay. With the learned opponent model, the
extended RHEA is able to make more realistic plans based on what the opponent
is likely to do. This tends to lead to better results. We compared our approach
directly with the bots from the FTGAIC 2018 competition, and found our method
to significantly outperform all of them, for all three character. Furthermore,
our proposed bot with the policy-gradient-based opponent model is the only one
without using Monte-Carlo Tree Search (MCTS) among top five bots in the 2019
competition in which it achieved second place, while using much less domain
knowledge than the winner.
- Abstract(参考訳): ファイティングゲームAIコンペティション(FTGAIC)は、2プレイヤーのビデオゲームAIのための挑戦的なベンチマークを提供する。
この挑戦は、大きなアクションスペース、キャラクターと能力の多様なスタイル、ゲームのリアルタイムな性質から生じる。
本稿では,RHEA(Rolling Horizon Evolution Algorithm)と対向モデル学習を組み合わせた新しいアルゴリズムを提案する。
このアプローチは、どの2プレイヤーのビデオゲームにも容易に適用できる。
従来のRHEAとは対照的に,クロスエントロピーによる教師付き学習と,政策勾配による強化学習,Q学習によって,相手の履歴観測に基づいて最適化されたモデルを提案する。
モデルはライブゲームプレイ中に学習される。
学習した対戦モデルでは、拡張されたRHEAは、対戦相手が何をするかに基づいて、より現実的な計画を立てることができます。
これはより良い結果をもたらす傾向がある。
われわれのアプローチをFTGAIC 2018コンペティションのボットと直接比較したところ、我々の手法は3文字すべてで、それら全てを大幅に上回っていることがわかった。
さらに、ポリシーに基づく対戦型ボットは、2019年のトップ5の中でモンテカルロツリーサーチ(MCTS)を使わない唯一のボットであり、勝者よりもドメイン知識がはるかに少ない。
関連論文リスト
- DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Know your Enemy: Investigating Monte-Carlo Tree Search with Opponent
Models in Pommerman [14.668309037894586]
強化学習(Reinforcement Learning)と組み合わせて、モンテカルロ木探索(Monte-Carlo Tree Search)はChess、Shogi、Goといったゲームにおいて、人間のグランドマスターよりも優れていることを示した。
汎用マルチプレイヤーゲームからシングルプレイヤーゲームと2プレイヤーゲームに変換する手法について検討する。
論文 参考訳(メタデータ) (2023-05-22T16:39:20Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Does it matter how well I know what you're thinking? Opponent Modelling
in an RTS game [0.0]
実時間戦略ゲームにおいて,モンテカルロ木探索 (MCTS) とローリング水平進化アルゴリズム (RHEA) の対戦者のモデリング精度に対する感度について検討した。
我々は、未知の相手と低い計算予算に直面して、RHEAで明示的なモデルを使用しず、MCTSアルゴリズムの一部としてツリー内の相手の動作をモデル化した方がよいことを示す。
論文 参考訳(メタデータ) (2020-06-15T18:10:22Z) - Multi-AI competing and winning against humans in iterated
Rock-Paper-Scissors game [4.2124879433151605]
我々は1つの固定メモリ長のマルコフモデルに基づくAIアルゴリズムを用いて、反復したRock Paper Scissorsゲームで人間と競合する。
我々は、異なる競合戦略に対応するために、変更可能なパラメータを持つマルチAIアーキテクチャを開発する。
我々の戦略は、95%以上の人間の対戦相手に勝つことができる。
論文 参考訳(メタデータ) (2020-03-15T06:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。