Fugu-MT 論文翻訳(概要): Tackling Morpion Solitaire with AlphaZero-likeRanked Reward Reinforcement Learning

論文の概要: Tackling Morpion Solitaire with AlphaZero-likeRanked Reward Reinforcement Learning

arxiv url: http://arxiv.org/abs/2006.07970v1
Date: Sun, 14 Jun 2020 18:32:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-21 12:54:31.612683
Title: Tackling Morpion Solitaire with AlphaZero-likeRanked Reward Reinforcement Learning
Title（参考訳）: AlphaZeroライクなRanked Reinforcement Learningを用いたモーピオンソリティアのタックリング
Authors: Hui Wang, Mike Preuss, Michael Emmerich and Aske Plaat
Abstract要約: Morpion Solitaireは、紙と鉛筆で演奏される人気シングルプレーヤーゲームである。従来の検索アルゴリズムでは良い解が見つからなかった。我々は、ランク付け報酬として知られるアプローチを使用して、Morpion Solitaireのための強化学習セルフプレイフレームワークを作成します。
参考スコア（独自算出の注目度）: 4.534822382040738
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Morpion Solitaire is a popular single player game, performed with paper and pencil. Due to its large state space (on the order of the game of Go) traditional search algorithms, such as MCTS, have not been able to find good solutions. A later algorithm, Nested Rollout Policy Adaptation, was able to find a new record of 82 steps, albeit with large computational resources. After achieving this record, to the best of our knowledge, there has been no further progress reported, for about a decade. In this paper we take the recent impressive performance of deep self-learning reinforcement learning approaches from AlphaGo/AlphaZero as inspiration to design a searcher for Morpion Solitaire. A challenge of Morpion Solitaire is that the state space is sparse, there are few win/loss signals. Instead, we use an approach known as ranked reward to create a reinforcement learning self-play framework for Morpion Solitaire. This enables us to find medium-quality solutions with reasonable computational effort. Our record is a 67 steps solution, which is very close to the human best (68) without any other adaptation to the problem than using ranked reward. We list many further avenues for potential improvement.
Abstract（参考訳）: Morpion Solitaireは、紙と鉛筆で演奏される人気シングルプレーヤーゲームである。その大きな状態空間(ゲーム・オブ・ゴーの順)のため、mctsのような伝統的な探索アルゴリズムは良い解を見つけることができなかった。その後のアルゴリズムであるnested rollout policy adaptationは、大規模な計算リソースを持つにもかかわらず、82ステップの新しい記録を見つけることができた。この記録を達成した後、私たちの知る限り、約10年間、それ以上の進展は報告されていない。本稿では,AlphaGo/AlphaZeroによる深層自己学習強化学習の成果を,Morpion Solitaireの探索者設計のインスピレーションとして捉えた。 Morpion Solitaireの課題は、状態空間が狭く、勝利/損失信号が少ないことだ。代わりに、ランク付け報酬と呼ばれるアプローチを使って、morpion solitaireの強化学習自己プレイフレームワークを作成します。これにより、妥当な計算努力で中質のソリューションを見つけることができる。私たちの記録は67ステップのソリューションであり、ランク付けされた報酬を使うよりも、問題に適応せずに人間のベスト(68)に非常に近い。改善の可能性について、さらに多くの道を挙げる。

関連論文リスト

Search-contempt: a hybrid MCTS algorithm for training AlphaZero-like engines with better computational efficiency [4.347762994353093]
本稿では,MCTS アルゴリズムの新たなハイブリッド版である Search-Contempt を紹介する。検索エンジンはOdds Chessのエンジンに大きな力を与えている。これは、より計算効率のよいセルフプレイベースのエンジンをトレーニングする可能性を開く。
論文参考訳（メタデータ） (2025-04-10T13:56:31Z)
Game Solving with Online Fine-Tuning [17.614045403579244]
本稿では,探索中のオンラインファインチューニングの適用について検討し,ゲーム問題解決のための最適設計計算を学習するための2つの方法を提案する。実験の結果,オンラインファインチューニングを用いることで,ベースラインに比べて23.54%の時間しか利用できない7x7 Killall-Goの課題が解決できることがわかった。
論文参考訳（メタデータ） (2023-11-13T09:09:52Z)
AlphaZero Gomoku [9.434566356382529]
我々は、AlphaZeroを「Five in a Row」とも呼ばれる古くからのボードゲーム「Gomoku」に拡張する。我々のテストは、Go以外のゲームに適応するAlphaZeroの汎用性を示している。
論文参考訳（メタデータ） (2023-09-04T00:20:06Z)
Hardness of Independent Learning and Sparse Equilibrium Computation in Markov Games [70.19141208203227]
マルコフゲームにおける分散型マルチエージェント強化学習の問題点を考察する。我々は,全てのプレイヤーが独立に実行すると,一般のサムゲームにおいて,アルゴリズムが到達しないことを示す。我々は,全てのエージェントが集中型アルゴリズムによって制御されるような,一見簡単な設定であっても,下位境界が保持されていることを示す。
論文参考訳（メタデータ） (2023-03-22T03:28:12Z)
Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。 Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。 Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文参考訳（メタデータ） (2023-02-23T22:50:24Z)
Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文参考訳（メタデータ） (2022-11-07T18:43:25Z)
On Efficient Reinforcement Learning for Full-length Game of StarCraft II [21.768578136029987]
本稿では,抽出されたマクロアクションとニューラルネットワークの階層構造を含む階層的RL手法について検討する。 64x64マップと制限単位を用いて、レベル1組込みAIに対して99%の勝利率を達成する。我々は、エージェントを不正なレベルAIに対して訓練し、レベル8、レベル9、レベル10のAIに対してそれぞれ96%、97%、94%の勝利率を達成するために、アーキテクチャを改善した。
論文参考訳（メタデータ） (2022-09-23T12:24:21Z)
An AlphaZero-Inspired Approach to Solving Search Problems [63.24965775030674]
探索問題を解くためにAlphaZeroで使用される手法と手法を適応する。本稿では,簡単な解法と自己還元という観点から表現できる可能性について述べる。また,探索問題に適応したモンテカルロ木探索法についても述べる。
論文参考訳（メタデータ） (2022-07-02T23:39:45Z)
Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning [86.37438204416435]
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。 DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
論文参考訳（メタデータ） (2022-06-30T15:53:19Z)
AlphaZero-Inspired General Board Game Learning and Playing [0.0]
最近、AlphaGoとAlphaZeroのアルゴリズムは、ゲーム学習と深層強化学習の新しい時代が始まった。本稿では,AlphaZeroの重要な要素であるモンテカルロ木探索(MCTS)計画段階を選択し,それを強化学習(RL)エージェントと組み合わせる。我々はこのアーキテクチャをいくつかの複雑なゲーム(Othello, ConnectFour, Rubik's Cube)に適用し、AlphaZeroにインスパイアされたMCTSラッパーの利点を示す。
論文参考訳（メタデータ） (2022-04-28T07:04:14Z)
Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文参考訳（メタデータ） (2021-04-17T20:33:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。