論文の概要: Evaluating Generalisation in General Video Game Playing
- arxiv url: http://arxiv.org/abs/2005.11247v1
- Date: Fri, 22 May 2020 15:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 09:15:48.288069
- Title: Evaluating Generalisation in General Video Game Playing
- Title(参考訳): 汎用ビデオゲームにおける一般化の評価
- Authors: Martin Balla and Simon M. Lucas and Diego Perez-Liebana
- Abstract要約: 本稿では,GVGAI学習コースにおいて,3つのゲームが選択され,2つのレベルがトレーニング用に与えられる一方で,3つの隠れレベルが評価のために残るという課題に焦点を当てる。
このセットアップは、通常より多くのデータを必要とするため、現在の強化学習(RL)アルゴリズムにとって難しい課題となる。
本稿では、GVGAIフレームワークから利用可能な5レベルから最大2レベルまでトレーニングされたAdvantage Actor-Critic (A2C)アルゴリズムの3バージョンを調査し、すべてのレベルのパフォーマンスを比較した。
- 参考スコア(独自算出の注目度): 1.160208922584163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The General Video Game Artificial Intelligence (GVGAI) competition has been
running for several years with various tracks. This paper focuses on the
challenge of the GVGAI learning track in which 3 games are selected and 2
levels are given for training, while 3 hidden levels are left for evaluation.
This setup poses a difficult challenge for current Reinforcement Learning (RL)
algorithms, as they typically require much more data. This work investigates 3
versions of the Advantage Actor-Critic (A2C) algorithm trained on a maximum of
2 levels from the available 5 from the GVGAI framework and compares their
performance on all levels. The selected sub-set of games have different
characteristics, like stochasticity, reward distribution and objectives. We
found that stochasticity improves the generalisation, but too much can cause
the algorithms to fail to learn the training levels. The quality of the
training levels also matters, different sets of training levels can boost
generalisation over all levels. In the GVGAI competition agents are scored
based on their win rates and then their scores achieved in the games. We found
that solely using the rewards provided by the game might not encourage winning.
- Abstract(参考訳): gvgai(general video game artificial intelligence)コンペティションは、様々なトラックで数年前から開催されている。
本稿では,GVGAI学習コースにおいて,3つのゲームが選択され,2つのレベルがトレーニング用に与えられる一方で,3つの隠れレベルが評価のために残るという課題に焦点を当てる。
このセットアップは、通常より多くのデータを必要とするため、現在の強化学習(RL)アルゴリズムにとって難しい課題となる。
本研究は,gvgaiフレームワークから利用可能な5レベルから最大2レベルまでトレーニングされたアドバンテージアクタ-クリティック(a2c)アルゴリズムの3つのバージョンを調査し,そのパフォーマンスを全レベル比較する。
選択されたサブセットは確率性、報酬分布、目的など、異なる特徴を持つ。
確率性は一般化を改善するが、アルゴリズムがトレーニングレベルを学習するのに失敗する可能性がある。
トレーニングレベルの品質も重要であり、トレーニングレベルの異なるセットは、すべてのレベルに対する一般化を促進する。
GVGAIの競技エージェントは勝利率に基づいて得点され、試合で得点される。
ゲームが提供する報酬のみを使用することで、勝利を促進できないことが分かったのです。
関連論文リスト
- Mastering Chinese Chess AI (Xiangqi) Without Search [2.309569018066392]
我々は,検索アルゴリズムに頼らずに動作する高性能な中国チェスAIを開発した。
このAIは、人間の上位0.1%のプレイヤーと競争する能力を示した。
論文 参考訳(メタデータ) (2024-10-07T09:27:51Z) - Reinforcement Learning for High-Level Strategic Control in Tower Defense Games [47.618236610219554]
戦略ゲームにおいて、ゲームデザインの最も重要な側面の1つは、プレイヤーにとっての挑戦の感覚を維持することである。
従来のスクリプティング手法と強化学習を組み合わせた自動手法を提案する。
その結果、強化学習のような学習アプローチとスクリプトAIを組み合わせることで、AIのみを使用するよりも高性能で堅牢なエージェントが生まれることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:06:31Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Retrospective on the 2021 BASALT Competition on Learning from Human
Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。
LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。
チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-04-14T17:24:54Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Reinforcement Learning with Dual-Observation for General Video Game
Playing [12.33685708449853]
General Video Game AI Learning Competitionは、トレーニング中に見えないさまざまなゲームレベルをプレイできるエージェントを開発することを目的としている。
本稿では,5年間の一般ゲームAI学習コンペティションを要約する。
汎用ゲームプレイのための2重観測を用いた新しい強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T08:28:20Z) - Testing match-3 video games with Deep Reinforcement Learning [0.0]
そこで本研究では,Match-3 ゲームにおいて,Deep Reinforcement Learning を用いてテストプロセスを自動化する可能性について検討する。
我々は,レッドビットゲームズが開発したMatch-3ゲームであるJelly Juiceゲーム上で,この種のネットワークをテストする。
論文 参考訳(メタデータ) (2020-06-30T12:41:35Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。