論文の概要: Neural Network-based Information Set Weighting for Playing Reconnaissance Blind Chess
- arxiv url: http://arxiv.org/abs/2407.05864v1
- Date: Mon, 8 Jul 2024 12:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 15:50:25.664129
- Title: Neural Network-based Information Set Weighting for Playing Reconnaissance Blind Chess
- Title(参考訳): ニューラルネットワークを用いたBlind Chess再生のための情報集合重み付け
- Authors: Timo Bertram, Johannes Fürnkranz, Martin Müller,
- Abstract要約: 不完全な情報ゲームでは、ゲーム状態は一般にプレイヤーにとって完全に観察できない。
我々は、歴史ゲームデータから設定した情報において、各状態の確率を推定する2つの異なるニューラルネットワークを訓練する。
実験により、シームズニューラルネットワークはより精度が高く、与えられたドメインに対する古典的な畳み込みニューラルネットワークよりも効率的であることが判明した。
- 参考スコア(独自算出の注目度): 4.336779198334903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In imperfect information games, the game state is generally not fully observable to players. Therefore, good gameplay requires policies that deal with the different information that is hidden from each player. To combat this, effective algorithms often reason about information sets; the sets of all possible game states that are consistent with a player's observations. While there is no way to distinguish between the states within an information set, this property does not imply that all states are equally likely to occur in play. We extend previous research on assigning weights to the states in an information set in order to facilitate better gameplay in the imperfect information game of Reconnaissance Blind Chess. For this, we train two different neural networks which estimate the likelihood of each state in an information set from historical game data. Experimentally, we find that a Siamese neural network is able to achieve higher accuracy and is more efficient than a classical convolutional neural network for the given domain. Finally, we evaluate an RBC-playing agent that is based on the generated weightings and compare different parameter settings that influence how strongly it should rely on them. The resulting best player is ranked 5th on the public leaderboard.
- Abstract(参考訳): 不完全な情報ゲームでは、ゲーム状態は一般にプレイヤーにとって完全に観察できない。
そのため、優れたゲームプレイには、各プレイヤーから隠された異なる情報を扱うポリシーが必要である。
これに対抗するために、効果的なアルゴリズムは情報集合を推論することが多く、全ての可能なゲーム状態はプレイヤーの観察と一致している。
情報集合内の状態を区別する方法はないが、この性質は全ての状態がプレーで等しく発生する可能性を示唆していない。
Reconnaissance Blind Chessの不完全な情報ゲームにおいて、より優れたゲームプレイを容易にするために、情報セット内の状態に重みを割り当てることに関する以前の研究を拡張した。
このために、歴史ゲームデータから設定した情報において、各状態の確率を推定する2つの異なるニューラルネットワークを訓練する。
実験により、シームズニューラルネットワークはより精度が高く、与えられたドメインに対する古典的な畳み込みニューラルネットワークよりも効率的であることが判明した。
最後に、生成された重み付けを基にしたRBC演奏エージェントを評価し、それに依存するパラメータ設定を比較した。
上位の選手は5位にランクインしている。
関連論文リスト
- Efficiently Training Neural Networks for Imperfect Information Games by Sampling Information Sets [4.336779198334903]
そこで本研究では,学習サンプル間で完全情報ゲーム評価の予算を分配して,リターンを最大化する方法について検討する。
実験の結果, 少数の状態のサンプリングは, 比較的少数の状態のサンプリングよりも, 比較的多数の異なる位置のサンプリングが望ましいことがわかった。
論文 参考訳(メタデータ) (2024-07-08T12:37:07Z) - CNN-based Game State Detection for a Foosball Table [1.612440288407791]
フォスボールのゲームでは、コンパクトで包括的なゲーム状態の記述は、フィギュアの位置シフトと回転と、時間とともにボールの位置で構成される。
本稿では,フォスボールのゲーム状態を決定するフィギュア検出システムについて述べる。
このデータセットを使用して、畳み込みニューラルネットワーク(CNN)ベースのエンドツーエンド回帰モデルをトレーニングし、各ロッドの回転とシフトを予測する。
論文 参考訳(メタデータ) (2024-04-08T09:48:02Z) - The Update-Equivalence Framework for Decision-Time Planning [78.44953498421854]
本稿では,サブゲームの解決ではなく,更新等価性に基づく意思決定時計画のための代替フレームワークを提案する。
ミラー降下に基づく完全協調型ゲームに対する有効音声探索アルゴリズムと、磁気ミラー降下に基づく対戦型ゲームに対する探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-04-25T20:28:55Z) - Abstracting Imperfect Information Away from Two-Player Zero-Sum Games [85.27865680662973]
Nayyar et al. (2013) は、プレイヤーがプレイ中にポリシーを公に発表することで、不完全な情報を共通のペイオフゲームから抽象化できることを示した。
この研究は、ある正規化された平衡が上記の非対応問題を持たないことを示している。
これらの正規化された平衡はナッシュ平衡に任意に近づくことができるので、この結果は2つのプレイヤーゼロサムゲームを解くための新たな視点への扉を開く。
論文 参考訳(メタデータ) (2023-01-22T16:54:06Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Supervised and Reinforcement Learning from Observations in
Reconnaissance Blind Chess [0.0]
本研究では,オリジナルのAlphaGoシステムにインスパイアされたトレーニングアプローチを適用し,リコネッサンス・ブラインドチェスの不完全な情報ゲームをプレイする。
ゲーム状態の完全な記述ではなく,観察のみを用いて,一般に利用可能なゲームレコードの教師エージェントを訓練する。
次に、政治強化学習アルゴリズムであるPhysmal Policy Optimizationを用いて、エージェントの自己プレイによりエージェントの性能を向上させる。
論文 参考訳(メタデータ) (2022-08-03T12:50:19Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Computing Nash Equilibria in Multiplayer DAG-Structured Stochastic Games
with Persistent Imperfect Information [1.7132914341329848]
永続的不完全情報を持つマルチプレイヤー汎用ゲームにおいて,ナッシュ均衡を近似するアルゴリズムを提案する。
新たな手法を用いることで,本ゲームにおけるナッシュ均衡を近似した戦略をアルゴリズムで計算できることが証明できる。
論文 参考訳(メタデータ) (2020-10-26T19:27:26Z) - Combining Deep Reinforcement Learning and Search for
Imperfect-Information Games [30.520629802135574]
本稿では,自己再生強化学習と探索のためのフレームワークであるReBeLを,ゼロサムゲームにおけるナッシュ均衡に確実に収束させる。
また、ReBeLは、従来のポーカーAIよりもはるかに少ないドメイン知識を使用しながら、制限なしのテキサスホールド'emポーカーのパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-07-27T15:21:22Z) - From Poincar\'e Recurrence to Convergence in Imperfect Information
Games: Finding Equilibrium via Regularization [49.368421783733815]
モノトーンゲームにおいて,報酬の適応が強い収束保証を与えることを示す。
また、この報酬適応手法を用いて、Nash平衡に正確に収束するアルゴリズムを構築する方法を示す。
論文 参考訳(メタデータ) (2020-02-19T21:36:58Z) - Signaling in Bayesian Network Congestion Games: the Subtle Power of
Symmetry [66.82463322411614]
本論文は, 最適遠点透過型シグナリング方式の問題点に焦点をあて, 対称性がその解法において重要な性質であることを示す。
プレイヤーが対称でアフィンコスト関数を持つとき,最適なエクアント説得スキームが計算可能であることを示す。
論文 参考訳(メタデータ) (2020-02-12T19:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。