論文の概要: Back to Square One: Superhuman Performance in Chutes and Ladders Through
Deep Neural Networks and Tree Search
- arxiv url: http://arxiv.org/abs/2104.00698v1
- Date: Thu, 1 Apr 2021 18:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 02:53:03.333281
- Title: Back to Square One: Superhuman Performance in Chutes and Ladders Through
Deep Neural Networks and Tree Search
- Title(参考訳): back to square one: ディープニューラルネットワークと木探索によるシュートとはしごの超人的パフォーマンス
- Authors: Dylan Ashley, Anssi Kanervisto, Brendan Bennett
- Abstract要約: ChutesとLaddersで超人的パフォーマンスを実現するアルゴリズムAlphaChuteを紹介します。
私たちは、アルゴリズムが一定の時間でナッシュ平衡に収束していることを証明し、したがって、私たちの知識のベストに、このゲームへの最初のそのような正式な解決策です。
- 参考スコア(独自算出の注目度): 5.663538370244175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AlphaChute: a state-of-the-art algorithm that achieves superhuman
performance in the ancient game of Chutes and Ladders. We prove that our
algorithm converges to the Nash equilibrium in constant time, and therefore is
-- to the best of our knowledge -- the first such formal solution to this game.
Surprisingly, despite all this, our implementation of AlphaChute remains
relatively straightforward due to domain-specific adaptations. We provide the
source code for AlphaChute here in our Appendix.
- Abstract(参考訳): 我々は,Chutes と Ladders の古代ゲームにおいて,超人的パフォーマンスを実現する最先端のアルゴリズムである AlphaChute を提示する。
我々のアルゴリズムは一定時間内にナッシュ平衡に収束するので、このゲームに対する最初の形式的解である。
驚くべきことに、これらのことにもかかわらず、AlphaChuteの実装はドメイン固有の適応のため比較的単純です。
AlphaChuteのソースコードは、Appendixで提供しています。
関連論文リスト
- Learning Two-Player Mixture Markov Games: Kernel Function Approximation
and Correlated Equilibrium [157.0902680672422]
非線形関数近似を用いた2プレイヤーゼロサムマルコフゲームにおけるナッシュ平衡の学習について検討する。
双対性ギャップを最小化してナッシュ均衡を求める新しいオンライン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T14:21:54Z) - A Deep Reinforcement Learning Approach for Finding Non-Exploitable
Strategies in Two-Player Atari Games [35.35717637660101]
本稿では,2プレイヤーゼロサムマルコフゲーム学習のための,エンドツーエンドの深層強化学習アルゴリズムを提案する。
我々の目標は、敵対者による搾取から解放されたナッシュ均衡政策を見つけることである。
論文 参考訳(メタデータ) (2022-07-18T19:07:56Z) - A Unified Approach to Reinforcement Learning, Quantal Response
Equilibria, and Two-Player Zero-Sum Games [104.3339905200105]
この研究は、ミラー降下と非ユークリッド近位勾配アルゴリズムにインスパイアされた、磁気ミラー降下と呼ばれるアルゴリズムを研究する。
我々の貢献は、2人のプレイヤーゼロサムゲームにおける平衡解法および強化学習へのアプローチとしての磁気ミラー降下の利点を実証することである。
論文 参考訳(メタデータ) (2022-06-12T19:49:14Z) - Last-iterate Convergence in Extensive-Form Games [49.31256241275577]
逐次ゲームにおける楽観的アルゴリズムの最後の点収束について検討する。
これらのアルゴリズムはいずれも最終点収束を楽しみ、そのいくつかは指数関数的に高速に収束する。
論文 参考訳(メタデータ) (2021-06-27T22:02:26Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - HEX and Neurodynamic Programming [0.0]
Hexは初めて、ゲームツリー構造やプルーニングの手法を使わずに解決しようと試みられている。
以前、ゲームの全コンピュータバージョンで使われていた仮想接続やセミ仮想接続について、いかなる情報も排除しました。
その代わりに、ニューラルネットワークによる自己プレイと近似を通じて強化学習を行い、高い分岐係数の問題を克服し、状態-作用評価のための大きなテーブルを維持する。
論文 参考訳(メタデータ) (2020-08-11T07:36:50Z) - Combining Deep Reinforcement Learning and Search for
Imperfect-Information Games [30.520629802135574]
本稿では,自己再生強化学習と探索のためのフレームワークであるReBeLを,ゼロサムゲームにおけるナッシュ均衡に確実に収束させる。
また、ReBeLは、従来のポーカーAIよりもはるかに少ないドメイン知識を使用しながら、制限なしのテキサスホールド'emポーカーのパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-07-27T15:21:22Z) - Finite-Time Last-Iterate Convergence for Multi-Agent Learning in Games [116.0771177871705]
我々は,$lambda$-cocoerciveゲーム上での連立OGD学習における有限時間最終点収束率を特徴付ける。
新たなダブルストッピング時間法により, この適応アルゴリズムは, 非適応的手法と同じ有限時間終点収束率が得られることを示す。
論文 参考訳(メタデータ) (2020-02-23T01:46:34Z) - From Poincar\'e Recurrence to Convergence in Imperfect Information
Games: Finding Equilibrium via Regularization [49.368421783733815]
モノトーンゲームにおいて,報酬の適応が強い収束保証を与えることを示す。
また、この報酬適応手法を用いて、Nash平衡に正確に収束するアルゴリズムを構築する方法を示す。
論文 参考訳(メタデータ) (2020-02-19T21:36:58Z) - Fast Complete Algorithm for Multiplayer Nash Equilibrium [1.7132914341329848]
マルチプレイヤー汎用ゲームにおけるナッシュ均衡計算のための新しい完全アルゴリズムについて述べる。
このアルゴリズムは、以前に研究されたいくつかのゲームクラスにおいて、先行した最速の完全アルゴリズムよりもはるかに高速に動作することを示す。
論文 参考訳(メタデータ) (2020-02-11T23:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。