論文の概要: Tackling Morpion Solitaire with AlphaZero-likeRanked Reward
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.07970v1
- Date: Sun, 14 Jun 2020 18:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-21 12:54:31.612683
- Title: Tackling Morpion Solitaire with AlphaZero-likeRanked Reward
Reinforcement Learning
- Title(参考訳): AlphaZeroライクなRanked Reinforcement Learningを用いたモーピオンソリティアのタックリング
- Authors: Hui Wang, Mike Preuss, Michael Emmerich and Aske Plaat
- Abstract要約: Morpion Solitaireは、紙と鉛筆で演奏される人気シングルプレーヤーゲームである。
従来の検索アルゴリズムでは良い解が見つからなかった。
我々は、ランク付け報酬として知られるアプローチを使用して、Morpion Solitaireのための強化学習セルフプレイフレームワークを作成します。
- 参考スコア(独自算出の注目度): 4.534822382040738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Morpion Solitaire is a popular single player game, performed with paper and
pencil. Due to its large state space (on the order of the game of Go)
traditional search algorithms, such as MCTS, have not been able to find good
solutions. A later algorithm, Nested Rollout Policy Adaptation, was able to
find a new record of 82 steps, albeit with large computational resources. After
achieving this record, to the best of our knowledge, there has been no further
progress reported, for about a decade.
In this paper we take the recent impressive performance of deep self-learning
reinforcement learning approaches from AlphaGo/AlphaZero as inspiration to
design a searcher for Morpion Solitaire. A challenge of Morpion Solitaire is
that the state space is sparse, there are few win/loss signals. Instead, we use
an approach known as ranked reward to create a reinforcement learning self-play
framework for Morpion Solitaire. This enables us to find medium-quality
solutions with reasonable computational effort. Our record is a 67 steps
solution, which is very close to the human best (68) without any other
adaptation to the problem than using ranked reward. We list many further
avenues for potential improvement.
- Abstract(参考訳): Morpion Solitaireは、紙と鉛筆で演奏される人気シングルプレーヤーゲームである。
その大きな状態空間(ゲーム・オブ・ゴーの順)のため、mctsのような伝統的な探索アルゴリズムは良い解を見つけることができなかった。
その後のアルゴリズムであるnested rollout policy adaptationは、大規模な計算リソースを持つにもかかわらず、82ステップの新しい記録を見つけることができた。
この記録を達成した後、私たちの知る限り、約10年間、それ以上の進展は報告されていない。
本稿では,AlphaGo/AlphaZeroによる深層自己学習強化学習の成果を,Morpion Solitaireの探索者設計のインスピレーションとして捉えた。
Morpion Solitaireの課題は、状態空間が狭く、勝利/損失信号が少ないことだ。
代わりに、ランク付け報酬と呼ばれるアプローチを使って、morpion solitaireの強化学習自己プレイフレームワークを作成します。
これにより、妥当な計算努力で中質のソリューションを見つけることができる。
私たちの記録は67ステップのソリューションであり、ランク付けされた報酬を使うよりも、問題に適応せずに人間のベスト(68)に非常に近い。
改善の可能性について、さらに多くの道を挙げる。
関連論文リスト
- Search-contempt: a hybrid MCTS algorithm for training AlphaZero-like engines with better computational efficiency [4.347762994353093]
本稿では,MCTS アルゴリズムの新たなハイブリッド版である Search-Contempt を紹介する。
検索エンジンはOdds Chessのエンジンに大きな力を与えている。
これは、より計算効率のよいセルフプレイベースのエンジンをトレーニングする可能性を開く。
論文 参考訳(メタデータ) (2025-04-10T13:56:31Z) - Game Solving with Online Fine-Tuning [17.614045403579244]
本稿では,探索中のオンラインファインチューニングの適用について検討し,ゲーム問題解決のための最適設計計算を学習するための2つの方法を提案する。
実験の結果,オンラインファインチューニングを用いることで,ベースラインに比べて23.54%の時間しか利用できない7x7 Killall-Goの課題が解決できることがわかった。
論文 参考訳(メタデータ) (2023-11-13T09:09:52Z) - AlphaZero Gomoku [9.434566356382529]
我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。
我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
論文 参考訳(メタデータ) (2023-09-04T00:20:06Z) - Hardness of Independent Learning and Sparse Equilibrium Computation in
Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。
我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。
我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文 参考訳(メタデータ) (2023-03-22T03:28:12Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。
私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。
我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文 参考訳(メタデータ) (2022-11-07T18:43:25Z) - On Efficient Reinforcement Learning for Full-length Game of StarCraft II [21.768578136029987]
本稿では,抽出されたマクロアクションとニューラルネットワークの階層構造を含む階層的RL手法について検討する。
64x64マップと制限単位を用いて、レベル1組込みAIに対して99%の勝利率を達成する。
我々は、エージェントを不正なレベルAIに対して訓練し、レベル8、レベル9、レベル10のAIに対してそれぞれ96%、97%、94%の勝利率を達成するために、アーキテクチャを改善した。
論文 参考訳(メタデータ) (2022-09-23T12:24:21Z) - An AlphaZero-Inspired Approach to Solving Search Problems [63.24965775030674]
探索問題を解くためにAlphaZeroで使用される手法と手法を適応する。
本稿では,簡単な解法と自己還元という観点から表現できる可能性について述べる。
また,探索問題に適応したモンテカルロ木探索法についても述べる。
論文 参考訳(メタデータ) (2022-07-02T23:39:45Z) - Mastering the Game of Stratego with Model-Free Multiagent Reinforcement
Learning [86.37438204416435]
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。
ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。
DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
論文 参考訳(メタデータ) (2022-06-30T15:53:19Z) - AlphaZero-Inspired General Board Game Learning and Playing [0.0]
最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。
本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。
我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
論文 参考訳(メタデータ) (2022-04-28T07:04:14Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。