論文の概要: Spatial State-Action Features for General Games
- arxiv url: http://arxiv.org/abs/2201.06401v2
- Date: Thu, 4 May 2023 11:43:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 19:57:08.273921
- Title: Spatial State-Action Features for General Games
- Title(参考訳): 一般ゲームにおける空間状態特性
- Authors: Dennis J.N.J. Soemers and \'Eric Piette and Matthew Stephenson and
Cameron Browne
- Abstract要約: 汎用ゲームのための空間状態対応機能の設計と効率的な実装を定式化する。
これらは、局所的な状態の変数にマッチするかどうかに基づいて、アクションをインセンティブまたは非インセンティブ化するようにトレーニングできるパターンである。
任意の機能セットに対して,アクティブな機能を評価するための効率的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 5.849736173068868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many board games and other abstract games, patterns have been used as
features that can guide automated game-playing agents. Such patterns or
features often represent particular configurations of pieces, empty positions,
etc., which may be relevant for a game's strategies. Their use has been
particularly prevalent in the game of Go, but also many other games used as
benchmarks for AI research. In this paper, we formulate a design and efficient
implementation of spatial state-action features for general games. These are
patterns that can be trained to incentivise or disincentivise actions based on
whether or not they match variables of the state in a local area around action
variables. We provide extensive details on several design and implementation
choices, with a primary focus on achieving a high degree of generality to
support a wide variety of different games using different board geometries or
other graphs. Secondly, we propose an efficient approach for evaluating active
features for any given set of features. In this approach, we take inspiration
from heuristics used in problems such as SAT to optimise the order in which
parts of patterns are matched and prune unnecessary evaluations. This approach
is defined for a highly general and abstract description of the problem --
phrased as optimising the order in which propositions of formulas in
disjunctive normal form are evaluated -- and may therefore also be of interest
to other types of problems than board games. An empirical evaluation on 33
distinct games in the Ludii general game system demonstrates the efficiency of
this approach in comparison to a naive baseline, as well as a baseline based on
prefix trees, and demonstrates that the additional efficiency significantly
improves the playing strength of agents using the features to guide search.
- Abstract(参考訳): 多くのボードゲームやその他の抽象ゲームでは、パターンは自動ゲームプレイエージェントを導く機能として使われてきた。
このようなパターンや特徴は、ゲームの戦略に関係のある特定の構成や空の位置などを表現することが多い。
それらの利用は、Goのゲームで特に広く使われてきたが、AI研究のベンチマークとして使用されている他のゲームも数多くある。
本稿では,一般ゲームにおける空間状態対応機能の設計と効率的な実装について述べる。
これらのパターンは、アクション変数周辺のローカル領域の状態変数にマッチするかどうかに基づいて、アクションをインセンティブまたは非インセンティブにすることができる。
いくつかの設計と実装の選択肢について詳細な情報を提供し、様々なボードジオメトリや他のグラフを用いて様々なゲームをサポートするための高度な汎用性の実現に重点を置いている。
第2に,任意の機能セットのアクティブ機能を評価するための効率的なアプローチを提案する。
このアプローチでは,SATなどの問題で用いられるヒューリスティックスからインスピレーションを得て,パターンの一部が一致し不必要な評価を行う順序を最適化する。
このアプローチは、この問題の非常に一般的で抽象的な記述のために定義されている - 可解な正規形式の公式の命題が評価される順序を最適化するものとして記述され、ボードゲーム以外の種類の問題にも関心があるかもしれない。
ludii汎用ゲームシステムにおける33の異なるゲームに対する経験的評価は、このアプローチの効率性を示すとともに、プレフィックスツリーに基づくベースラインと比較し、検索を誘導する機能を用いてエージェントのプレイ強度を大幅に向上させることを示した。
関連論文リスト
- The Update-Equivalence Framework for Decision-Time Planning [78.44953498421854]
本稿では,サブゲームの解決ではなく,更新等価性に基づく意思決定時計画のための代替フレームワークを提案する。
ミラー降下に基づく完全協調型ゲームに対する有効音声探索アルゴリズムと、磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-04-25T20:28:55Z) - Revisiting Game Representations: The Hidden Costs of Efficiency in
Sequential Decision-making Algorithms [0.6749750044497732]
不完全な情報の下でのシーケンシャルな意思決定アルゴリズムの進歩は、大きなゲームで顕著な成功を収めている。
これらのアルゴリズムは伝統的に広義のゲーム形式を用いてゲームを形式化する。
プレイヤー固有の情報状態木に基づく特殊表現の使用が,一般的な回避策であることを示す。
論文 参考訳(メタデータ) (2021-12-20T22:34:19Z) - Optimised Playout Implementations for the Ludii General Game System [8.344476599818828]
Ludiiの汎用ゲームシステムは、最適化された実装が適用可能であるか否かにかかわらず、ゲーム記述言語におけるゲームの記述に基づいて自動的に推論することができる。
実験的な評価では、標準実装よりも大きなスピードアップを示し、中央値はルディイの5.08倍の速さで145以上の異なるゲームを実行した。
論文 参考訳(メタデータ) (2021-11-04T12:59:53Z) - Rinascimento: searching the behaviour space of Splendor [0.0]
本研究の目的は,ゲーム内の行動空間(BSpace)を一般手法を用いてマッピングすることである。
特に、イベント値関数の使用は、古典的なスコアベースの報酬信号に基づくエージェントと比較して、BSpaceのカバレッジが著しく改善されている。
論文 参考訳(メタデータ) (2021-06-15T18:46:57Z) - Portfolio Search and Optimization for General Strategy Game-Playing [58.896302717975445]
ローリングホライズン進化アルゴリズムに基づく最適化とアクション選択のための新しいアルゴリズムを提案する。
エージェントのパラメータとポートフォリオセットの最適化について,N-tuple Bandit Evolutionary Algorithmを用いて検討する。
エージェントの性能分析により,提案手法はすべてのゲームモードによく一般化し,他のポートフォリオ手法よりも優れることが示された。
論文 参考訳(メタデータ) (2021-04-21T09:28:28Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Efficient Reasoning in Regular Boardgames [2.909363382704072]
本稿では,通常のボードゲーム(RBG)言語における推論の技術的側面について述べる。
RBGは知識推論、分析、生成、学習、ゲームのための一般化されたアルゴリズムの開発を支援する研究ツールとして機能する。
論文 参考訳(メタデータ) (2020-06-15T11:42:08Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Learning Dynamic Belief Graphs to Generalize on Text-Based Games [55.59741414135887]
テキストベースのゲームをプレイするには、自然言語処理とシーケンシャルな意思決定のスキルが必要である。
本研究では,原文からエンドツーエンドに学習したグラフ構造化表現を用いて,エージェントがテキストベースのゲームでどのように計画・一般化できるかを検討する。
論文 参考訳(メタデータ) (2020-02-21T04:38:37Z) - State Representation and Polyomino Placement for the Game Patchwork [0.0]
本稿では,ポリオミノタイルのドラフトと配置を用いた2人のプレイヤー戦略ゲームであるPatchworkについて検討する。
コアポリオミノ配置力学は規則的制約を用いた制約モデルで実装される。
グローバルな伝播誘導後悔が紹介され、後続の配置を除外しないことに基づいて配置が選択される。
論文 参考訳(メタデータ) (2020-01-13T13:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。