論文の概要: Supervised and Reinforcement Learning from Observations in
Reconnaissance Blind Chess
- arxiv url: http://arxiv.org/abs/2208.02029v1
- Date: Wed, 3 Aug 2022 12:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-04 13:37:31.047127
- Title: Supervised and Reinforcement Learning from Observations in
Reconnaissance Blind Chess
- Title(参考訳): レコネッサンスブラインドチェスにおける観察からの指導と強化学習
- Authors: Timo Bertram, Johannes F\"urnkranz, Martin M\"uller
- Abstract要約: 本研究では,オリジナルのAlphaGoシステムにインスパイアされたトレーニングアプローチを適用し,リコネッサンス・ブラインドチェスの不完全な情報ゲームをプレイする。
ゲーム状態の完全な記述ではなく,観察のみを用いて,一般に利用可能なゲームレコードの教師エージェントを訓練する。
次に、政治強化学習アルゴリズムであるPhysmal Policy Optimizationを用いて、エージェントの自己プレイによりエージェントの性能を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we adapt a training approach inspired by the original AlphaGo
system to play the imperfect information game of Reconnaissance Blind Chess.
Using only the observations instead of a full description of the game state, we
first train a supervised agent on publicly available game records. Next, we
increase the performance of the agent through self-play with the on-policy
reinforcement learning algorithm Proximal Policy Optimization. We do not use
any search to avoid problems caused by the partial observability of game states
and only use the policy network to generate moves when playing. With this
approach, we achieve an ELO of 1330 on the RBC leaderboard, which places our
agent at position 27 at the time of this writing. We see that self-play
significantly improves performance and that the agent plays acceptably well
without search and without making assumptions about the true game state.
- Abstract(参考訳): 本研究では,オリジナルのalphagoシステムに触発されたトレーニングアプローチを適用し,リコネッサンスブラインドチェスにおける不完全な情報ゲームをプレイする。
ゲーム状態の完全な説明ではなく、観察のみを使用して、監視エージェントを一般公開されたゲームレコード上でトレーニングします。
次に、政治強化学習アルゴリズムであるPhysmal Policy Optimizationの自己プレイによりエージェントの性能を向上させる。
ゲーム状態の部分的な可観測性に起因する問題を回避するために検索は一切使用せず、プレイ時の動作生成にはポリシーネットワークのみを使用します。
このアプローチにより、RBCのリーダーボード上で1330のELOを実現し、この記事執筆時点でエージェントを27位に位置づける。
我々は,自己プレイがパフォーマンスを著しく向上させ,エージェントが検索や真のゲーム状態の仮定を行なわずに,良好に動作できることを見出した。
関連論文リスト
- Neural Network-based Information Set Weighting for Playing Reconnaissance Blind Chess [4.336779198334903]
不完全な情報ゲームでは、ゲーム状態は一般にプレイヤーにとって完全に観察できない。
我々は、歴史ゲームデータから設定した情報において、各状態の確率を推定する2つの異なるニューラルネットワークを訓練する。
実験により、シームズニューラルネットワークはより精度が高く、与えられたドメインに対する古典的な畳み込みニューラルネットワークよりも効率的であることが判明した。
論文 参考訳(メタデータ) (2024-07-08T12:29:29Z) - Scaling Laws for Imitation Learning in Single-Agent Games [29.941613597833133]
我々は,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境に類似した改善がもたらされるかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
IL損失と平均戻り値は計算予算とスムーズに一致し,相関関係が強く,計算最適ILエージェントの訓練には電力法則が適用されることがわかった。
論文 参考訳(メタデータ) (2023-07-18T16:43:03Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。
私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。
我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文 参考訳(メタデータ) (2022-11-07T18:43:25Z) - Alpha-Mini: Minichess Agent with Deep Reinforcement Learning [0.0]
我々はエージェントにガードナーミニチェスのゲームに出場するように訓練する。
最終エージェントは、ランダムエージェントに対してほぼ(.97)完全勝利率を達成する。
また,自己再生によって得られる位置の集合を用いて,ネットワークの事前学習の効果についても検討する。
論文 参考訳(メタデータ) (2021-12-22T19:16:17Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Disentangling Controllable Object through Video Prediction Improves
Visual Reinforcement Learning [82.25034245150582]
多くの視覚に基づく強化学習問題において、エージェントは視野内の可動物体を制御する。
制御可能なオブジェクトを観測信号から切り離すためのエンドツーエンド学習フレームワークを提案する。
不整合表現は、RLがエージェントに追加の観察チャネルとして有用であることが示されている。
論文 参考訳(メタデータ) (2020-02-21T05:43:34Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。