論文の概要: HEX and Neurodynamic Programming
- arxiv url: http://arxiv.org/abs/2008.06359v1
- Date: Tue, 11 Aug 2020 07:36:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 10:47:25.550040
- Title: HEX and Neurodynamic Programming
- Title(参考訳): HEXと神経力学プログラミング
- Authors: Debangshu Banerjee
- Abstract要約: Hexは初めて、ゲームツリー構造やプルーニングの手法を使わずに解決しようと試みられている。
以前、ゲームの全コンピュータバージョンで使われていた仮想接続やセミ仮想接続について、いかなる情報も排除しました。
その代わりに、ニューラルネットワークによる自己プレイと近似を通じて強化学習を行い、高い分岐係数の問題を克服し、状態-作用評価のための大きなテーブルを維持する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hex is a complex game with a high branching factor. For the first time Hex is
being attempted to be solved without the use of game tree structures and
associated methods of pruning. We also are abstaining from any heuristic
information about Virtual Connections or Semi Virtual Connections which were
previously used in all previous known computer versions of the game. The
H-search algorithm which was the basis of finding such connections and had been
used with success in previous Hex playing agents has been forgone. Instead what
we use is reinforcement learning through self play and approximations through
neural networks to by pass the problem of high branching factor and maintaining
large tables for state-action evaluations. Our code is based primarily on
NeuroHex. The inspiration is drawn from the recent success of AlphaGo Zero.
- Abstract(参考訳): hexは高い分岐係数を持つ複雑なゲームである。
hexは、ゲームツリー構造と関連する刈り取り方法を用いずに、初めて解決しようとする試みである。
また、ゲームの全コンピュータバージョンで以前使用されていた仮想接続や半仮想接続に関するヒューリスティックな情報も排除しています。
このような接続を見つける基礎となったH-searchアルゴリズムは、以前のHexのプレイエージェントで成功して使われてきた。
その代わりに、ニューラルネットワークによる自己プレイと近似を通じて強化学習を行い、高い分岐係数の問題を克服し、状態-作用評価のための大きなテーブルを維持する。
私たちのコードはニューロヘックスに基づいています。
インスピレーションは、AlphaGo Zeroの最近の成功から導かれる。
関連論文リスト
- Tree Search for Simultaneous Move Games via Equilibrium Approximation [13.89302587642183]
同時移動ゲームのクラスについて検討する。
どちらのエージェントも、相手の動き以外はゲーム状態を知っている。
本研究では,完全な情報設定から自己プレイを通じて学習した木探索アルゴリズムを,パフォーマンスを著しく損なうことなく同時移動ゲームに適応させることができるか?
論文 参考訳(メタデータ) (2024-06-14T21:02:35Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Scaling Laws for Imitation Learning in Single-Agent Games [29.941613597833133]
我々は,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境に類似した改善がもたらされるかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
IL損失と平均戻り値は計算予算とスムーズに一致し,相関関係が強く,計算最適ILエージェントの訓練には電力法則が適用されることがわかった。
論文 参考訳(メタデータ) (2023-07-18T16:43:03Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。
私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。
我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文 参考訳(メタデータ) (2022-11-07T18:43:25Z) - An AlphaZero-Inspired Approach to Solving Search Problems [63.24965775030674]
探索問題を解くためにAlphaZeroで使用される手法と手法を適応する。
本稿では,簡単な解法と自己還元という観点から表現できる可能性について述べる。
また,探索問題に適応したモンテカルロ木探索法についても述べる。
論文 参考訳(メタデータ) (2022-07-02T23:39:45Z) - AlphaZero-Inspired General Board Game Learning and Playing [0.0]
最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。
本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。
我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
論文 参考訳(メタデータ) (2022-04-28T07:04:14Z) - Back to Square One: Superhuman Performance in Chutes and Ladders Through
Deep Neural Networks and Tree Search [5.663538370244175]
ChutesとLaddersで超人的パフォーマンスを実現するアルゴリズムAlphaChuteを紹介します。
私たちは、アルゴリズムが一定の時間でナッシュ平衡に収束していることを証明し、したがって、私たちの知識のベストに、このゲームへの最初のそのような正式な解決策です。
論文 参考訳(メタデータ) (2021-04-01T18:08:55Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Derived metrics for the game of Go -- intrinsic network strength
assessment and cheat-detection [0.0]
第二世代のエンジンのイノベーションが、新しいメトリクスを定義するためにどのように使用できるか、という2つの方法を説明します。
まず,探索成分が生のニューラルネットワークポリシ出力に加え,どの程度の情報に寄与するかを検討する。
第2に、スコア推定の差による移動の効果を定義する。
論文 参考訳(メタデータ) (2020-09-03T12:25:02Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。