論文の概要: Reinforcement Learning For Constraint Satisfaction Game Agents
(15-Puzzle, Minesweeper, 2048, and Sudoku)
- arxiv url: http://arxiv.org/abs/2102.06019v1
- Date: Tue, 9 Feb 2021 22:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-13 03:12:35.956432
- Title: Reinforcement Learning For Constraint Satisfaction Game Agents
(15-Puzzle, Minesweeper, 2048, and Sudoku)
- Title(参考訳): 制約満足度ゲームエージェントのための強化学習 (15-puzzle, Minesweeper, 2048, Sudoku)
- Authors: Anav Mehta
- Abstract要約: Deep Q-LearningはAtariやAlphaGoといったゲームで有望な結果を示している。
我々は,4つの制約満足度ゲームの制御ポリシーを学習するために,Qラーニングと深層Qラーニングを使用する。
これらのゲームは強化学習の可能性と限界に関するユニークな洞察を与える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, reinforcement learning has seen interest because of deep
Q-Learning, where the model is a convolutional neural network. Deep Q-Learning
has shown promising results in games such as Atari and AlphaGo. Instead of
learning the entire Q-table, it learns an estimate of the Q function that
determines a state's policy action. We use Q-Learning and deep Q-learning, to
learn control policies of four constraint satisfaction games (15-Puzzle,
Minesweeper, 2048, and Sudoku). 15-Puzzle is a sliding permutation puzzle and
provides a challenge in addressing its large state space. Minesweeper and
Sudoku involve partially observable states and guessing. 2048 is also a sliding
puzzle but allows for easier state representation (compared to 15-Puzzle) and
uses interesting reward shaping to solve the game. These games offer unique
insights into the potential and limits of reinforcement learning. The Q agent
is trained with no rules of the game, with only the reward corresponding to
each state's action. Our unique contribution is in choosing the reward
structure, state representation, and formulation of the deep neural network.
For low shuffle, 15-Puzzle, achieves a 100% win rate, the medium and high
shuffle achieve about 43% and 22% win rates respectively. On a standard 16x16
Minesweeper board, both low and high-density boards achieve close to 45% win
rate, whereas medium density boards have a low win rate of 15%. For 2048, the
1024 win rate was achieved with significant ease (100%) with high win rates for
2048, 4096, 8192 and 16384 as 40%, 0.05%, 0.01% and 0.004% , respectively. The
easy Sudoku games had a win rate of 7%, while medium and hard games had 2.1%
and 1.2% win rates, respectively. This paper explores the environment
complexity and behavior of a subset of constraint games using reward structures
which can get us closer to understanding how humans learn.
- Abstract(参考訳): 近年では、モデルが畳み込みニューラルネットワークである深層Q-Learningによって強化学習が関心を集めている。
Deep Q-LearningはAtariやAlphaGoといったゲームで有望な結果を示している。
q-table全体を学習する代わりに、状態のポリシーアクションを決定するq関数の見積もりを学ぶ。
制約満足度ゲーム(15-Puzzle, Minesweeper, 2048, Sudoku)の制御ポリシーをQ-Learningと深層Q-Learningを用いて学習する。
15-puzzleはスライディング置換パズルであり、大きな状態空間に対処する上での課題となっている。
MinesweeperとSudokuは、部分的に観測可能な状態と推測を含む。
2048はスライディングパズルでもあるが、状態表現(15-Puzzleと比較)がより簡単になり、ゲーム解決に面白い報酬のシェーピングを使用する。
これらのゲームは強化学習の可能性と限界に関するユニークな洞察を与える。
Qエージェントは、各州のアクションに対応する報酬のみを使用して、ゲームのルールなしで訓練されます。
私達の独特な貢献は深いニューラルネットワークの報酬の構造、状態表現および公式を選ぶことです。
15プッシュルの低シャッフルは100%の勝利率を達成し、中高のシャッフルはそれぞれ43%と22%の勝利率を達成している。
標準の16×16マインズウィーパーボードでは、低密度ボードと高密度ボードの両方が45%近い勝利率を達成する一方、中密度ボードは15%低い勝利率を持つ。
2048年では、1024勝率は、それぞれ40%、0.05%、0.01%、0.004%として、2048、4096、8192および16384の高い勝率で有意な容易さ(100%)で達成された。
簡単なスドクゲームは7%で、中堅ゲームはそれぞれ2.1%と1.2%の勝利率であった。
本稿では,人間学習の理解を深めるための報酬構造を用いて,制約ゲームの一部の環境複雑性と行動について考察する。
関連論文リスト
- Improve Value Estimation of Q Function and Reshape Reward with Monte Carlo Tree Search [0.4450107621124637]
強化学習は、GoやAtariといった完璧な情報ゲームで大きな成功を収めた。
不完全な情報ゲームのための強化学習の研究は、より複雑なゲーム構造とランダム性のために比較的限られている。
本稿では,不完全な情報ゲームであるUnoに着目し,Q値過大評価を減らし,報酬関数を書き換えることにより,これらの問題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-15T14:31:54Z) - Reinforcement Learning for High-Level Strategic Control in Tower Defense Games [47.618236610219554]
戦略ゲームにおいて、ゲームデザインの最も重要な側面の1つは、プレイヤーにとっての挑戦の感覚を維持することである。
従来のスクリプティング手法と強化学習を組み合わせた自動手法を提案する。
その結果、強化学習のような学習アプローチとスクリプトAIを組み合わせることで、AIのみを使用するよりも高性能で堅牢なエージェントが生まれることが示された。
論文 参考訳(メタデータ) (2024-06-12T08:06:31Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Game Solving with Online Fine-Tuning [17.614045403579244]
本稿では,探索中のオンラインファインチューニングの適用について検討し,ゲーム問題解決のための最適設計計算を学習するための2つの方法を提案する。
実験の結果,オンラインファインチューニングを用いることで,ベースラインに比べて23.54%の時間しか利用できない7x7 Killall-Goの課題が解決できることがわかった。
論文 参考訳(メタデータ) (2023-11-13T09:09:52Z) - Predicting Winning Regions in Parity Games via Graph Neural Networks
(Extended Abstract) [68.8204255655161]
グラフニューラルネットワークを用いてパリティゲームの勝利領域を決定するための不完全時間的アプローチを提案する。
これは、データセットの60%の勝利領域を正しく決定し、残りの領域で小さなエラーしか発生しない。
論文 参考訳(メタデータ) (2022-10-18T15:10:25Z) - Playing 2048 With Reinforcement Learning [0.0]
本稿では,2048年に勝利するための強化学習手法について検討する。
我々のアプローチには、深いQ-ラーニングとビームサーチがあり、ビームサーチは2048 28.5時間に達する。
論文 参考訳(メタデータ) (2021-10-20T05:02:31Z) - Method for making multi-attribute decisions in wargames by combining
intuitionistic fuzzy numbers with reinforcement learning [18.04026817707759]
本稿では,多属性管理と強化学習を組み合わせたアルゴリズムを提案する。
エージェントの特定のルールに対する勝利率の低さと、インテリジェントなウォーゲームトレーニング中にすぐに収束できない問題を解決します。
この分野では、知的ウォーガミングのためのアルゴリズム設計が多属性意思決定と強化学習を組み合わせたのは初めてである。
論文 参考訳(メタデータ) (2021-09-06T10:45:52Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。