論文の概要: Inducing game rules from varying quality game play
- arxiv url: http://arxiv.org/abs/2008.01664v1
- Date: Tue, 4 Aug 2020 15:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:29:16.686491
- Title: Inducing game rules from varying quality game play
- Title(参考訳): 異なる品質のゲームプレイからゲームルールを誘導する
- Authors: Alastair Flynn
- Abstract要約: 汎用ゲームプレイング(英: General Game Playing、GGP)は、人工知能プログラムが様々なゲームを成功させるために必要なフレームワークである。
IGGPは、特定のゲーム観測から一般的なゲームルールを誘導する問題である。
私たちは2014年のGGPコンテストの勝者であるSanchoを使って、多くのゲームでインテリジェントなゲームトレースを生成しています。
次に、ILPシステム、Metagol、Aleph、ILASPを使用して、トレースからゲームルールを誘導する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: General Game Playing (GGP) is a framework in which an artificial intelligence
program is required to play a variety of games successfully. It acts as a test
bed for AI and motivator of research. The AI is given a random game description
at runtime which it then plays. The framework includes repositories of game
rules. The Inductive General Game Playing (IGGP) problem challenges machine
learning systems to learn these GGP game rules by watching the game being
played. In other words, IGGP is the problem of inducing general game rules from
specific game observations. Inductive Logic Programming (ILP) has shown to be a
promising approach to this problem though it has been demonstrated that it is
still a hard problem for ILP systems. Existing work on IGGP has always assumed
that the game player being observed makes random moves. This is not
representative of how a human learns to play a game. With random gameplay
situations that would normally be encountered when humans play are not present.
To address this limitation, we analyse the effect of using intelligent versus
random gameplay traces as well as the effect of varying the number of traces in
the training set. We use Sancho, the 2014 GGP competition winner, to generate
intelligent game traces for a large number of games. We then use the ILP
systems, Metagol, Aleph and ILASP to induce game rules from the traces. We
train and test the systems on combinations of intelligent and random data
including a mixture of both. We also vary the volume of training data. Our
results show that whilst some games were learned more effectively in some of
the experiments than others no overall trend was statistically significant. The
implications of this work are that varying the quality of training data as
described in this paper has strong effects on the accuracy of the learned game
rules; however one solution does not work for all games.
- Abstract(参考訳): 汎用ゲームプレイング(英: General Game Playing、GGP)は、人工知能プログラムが様々なゲームを成功させるために必要なフレームワークである。
それはAIと研究のモチベーションのためのテストベッドとして機能する。
AIは実行時にランダムなゲーム記述が与えられ、それが再生される。
このフレームワークはゲームルールのリポジトリを含んでいる。
Inductive General Game Playing (IGGP)問題は、ゲームがプレイされているのを見てこれらのGGPゲームルールを学ぶために機械学習システムに挑戦する。
言い換えれば、IGGPは特定のゲーム観察から一般的なゲームルールを誘導する問題である。
Inductive Logic Programming (ILP) はこの問題に対して有望なアプローチであることが示されているが、まだILPシステムでは難しい問題である。
IGGPの既存の研究は、観測されているプレイヤーがランダムに動くと常に仮定している。
これは、人間がゲームの遊び方を学ぶことを表すものではない。
ランダムなゲームプレイでは、人間がプレイしていないときに通常遭遇する。
この制限に対処するために,知的かつ無作為なゲームプレイトレースの使用の効果と,トレーニングセットにおけるトレース数の変更の効果を分析した。
2014年のggpコンペティションの勝者であるsanchoを使って、多くのゲームでインテリジェントなゲームトレースを生成します。
次に、ILPシステム、Metagol、Aleph、ILASPを使用して、トレースからゲームルールを誘導する。
両方の混合を含むインテリジェントデータとランダムデータの組み合わせでシステムをトレーニングし、テストします。
トレーニングデータの量も異なります。
その結果、いくつかのゲームは実験でより効果的に学習されたが、全体の傾向は統計的に有意ではなかった。
本研究の意義は,本論文で記述したトレーニングデータの品質の変化が,学習したゲームルールの正確性に強い影響を与えることにある。
関連論文リスト
- People use fast, goal-directed simulation to reason about novel games [75.25089384921557]
我々は,シンプルだが斬新なコネクテッドnスタイルのボードゲームについて,人々がどう考えるかを研究する。
ゲームがどんなに公平か、そしてどんなに楽しいのかを、ごくわずかな経験から判断するよう、私たちは人々に求めます。
論文 参考訳(メタデータ) (2024-07-19T07:59:04Z) - Games of Knightian Uncertainty as AGI testbeds [2.66269503676104]
ゲーム研究がAGIパスに再び関係するようになるためには、textitKnightianの不確実性に対処する必要がある、と我々は主張する。
エージェントは、警告なし、以前のデータなし、モデルアクセスなしで、オンザフライでゲームルールの迅速な変更に適応できる必要がある。
論文 参考訳(メタデータ) (2024-06-26T08:52:34Z) - Reinforcement Learning for High-Level Strategic Control in Tower Defense Games [47.618236610219554]
戦略ゲームにおいて、ゲームデザインの最も重要な側面の1つは、プレイヤーにとっての挑戦の感覚を維持することである。
従来のスクリプティング手法と強化学習を組み合わせた自動手法を提案する。
その結果、強化学習のような学習アプローチとスクリプトAIを組み合わせることで、AIのみを使用するよりも高性能で堅牢なエージェントが生まれることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:06:31Z) - Mastering the Game of Guandan with Deep Reinforcement Learning and
Behavior Regulating [16.718186690675164]
我々は,グアンダンのゲームをマスターするAIエージェントのためのフレームワークGuanZeroを提案する。
本論文の主な貢献は、注意深く設計されたニューラルネットワーク符号化方式によるエージェントの動作の制御である。
論文 参考訳(メタデータ) (2024-02-21T07:26:06Z) - Collusion Detection in Team-Based Multiplayer Games [57.153233321515984]
チームベースのマルチプレイヤーゲームにおいて,協調動作を検出するシステムを提案する。
提案手法は,ゲーム内行動パターンと組み合わせたプレイヤーの社会的関係を解析する。
次に,非教師なし学習手法であるアイソレーションフォレストによる検出を自動化する。
論文 参考訳(メタデータ) (2022-03-10T02:37:39Z) - Public Information Representation for Adversarial Team Games [31.29335755664997]
対戦チームゲームは、プレイ中にチームメンバーが利用可能な非対称情報の中にあります。
本アルゴリズムは,対戦相手を持つ逐次チームゲームから古典的な2プレイヤーゼロサムゲームに変換する。
この問題のNPハード性のため、結果のパブリックチームゲームは元のゲームよりも指数関数的に大きいかもしれない。
論文 参考訳(メタデータ) (2022-01-25T15:07:12Z) - An Unsupervised Video Game Playstyle Metric via State Discretization [20.48689549093258]
本稿では,ゲーム観察とアクションから直接,ビデオゲームのプレイスタイルに関する最初の指標を提案する。
提案手法は離散表現を学習する新しい手法に基づいている。
いくつかのゲームプラットフォームにおける実験において,我々の測定値の高精度なプレイスタイルの精度を示す。
論文 参考訳(メタデータ) (2021-10-03T08:30:51Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - TotalBotWar: A New Pseudo Real-time Multi-action Game Challenge and
Competition for AI [62.997667081978825]
TotalBotWarは、ゲームAIのための新しい擬似リアルタイムマルチアクションチャレンジだ。
ゲームはTotalWarのゲームシリーズに基づいており、プレイヤーは敵のゲームに勝つために軍隊を管理する。
論文 参考訳(メタデータ) (2020-09-18T09:13:56Z) - Evaluating Generalisation in General Video Game Playing [1.160208922584163]
本稿では,GVGAI学習コースにおいて,3つのゲームが選択され,2つのレベルがトレーニング用に与えられる一方で,3つの隠れレベルが評価のために残るという課題に焦点を当てる。
このセットアップは、通常より多くのデータを必要とするため、現在の強化学習(RL)アルゴリズムにとって難しい課題となる。
本稿では、GVGAIフレームワークから利用可能な5レベルから最大2レベルまでトレーニングされたAdvantage Actor-Critic (A2C)アルゴリズムの3バージョンを調査し、すべてのレベルのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2020-05-22T15:57:52Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。