論文の概要: Generalised agent for solving higher board states of tic tac toe using
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.12252v1
- Date: Fri, 23 Dec 2022 10:58:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:44:01.989196
- Title: Generalised agent for solving higher board states of tic tac toe using
Reinforcement Learning
- Title(参考訳): 強化学習を用いたtic tac toeの高次基板状態解決のための一般化エージェント
- Authors: Bhavuk Kalra
- Abstract要約: 本研究の目的は, 短時間で正確な移動を行うため, 高位板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板状板
そのアイデアは、よく考えられた学習問題として、ティック・タック・トイ・ゲーム(tic tac toe game)を取り入れることだ。
研究とその成果は有望であり、トレーニングの各エポックに比例して高い勝利を与える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tic Tac Toe is amongst the most well-known games. It has already been shown
that it is a biased game, giving more chances to win for the first player
leaving only a draw or a loss as possibilities for the opponent, assuming both
the players play optimally. Thus on average majority of the games played result
in a draw. The majority of the latest research on how to solve a tic tac toe
board state employs strategies such as Genetic Algorithms, Neural Networks,
Co-Evolution, and Evolutionary Programming. But these approaches deal with a
trivial board state of 3X3 and very little research has been done for a
generalized algorithm to solve 4X4,5X5,6X6 and many higher states. Even though
an algorithm exists which is Min-Max but it takes a lot of time in coming up
with an ideal move due to its recursive nature of implementation. A Sample has
been created on this link \url{https://bk-tic-tac-toe.herokuapp.com/} to prove
this fact. This is the main problem that this study is aimed at solving i.e
providing a generalized algorithm(Approximate method, Learning-Based) for
higher board states of tic tac toe to make precise moves in a short period.
Also, the code changes needed to accommodate higher board states will be
nominal. The idea is to pose the tic tac toe game as a well-posed learning
problem. The study and its results are promising, giving a high win to draw
ratio with each epoch of training. This study could also be encouraging for
other researchers to apply the same algorithm to other similar board games like
Minesweeper, Chess, and GO for finding efficient strategies and comparing the
results.
- Abstract(参考訳): Tic Tac Toeは最も有名なゲームだ。
既に偏りのあるゲームであることが示されており、一方のプレイヤーが引き分けや負けだけを残して勝利する機会が増えており、双方のプレイヤーが最適にプレーすることを前提としている。
この結果、試合のほとんどの試合が引き分けとなった。
tic tac toeボード状態の解決方法に関する最新の研究の大部分は、遺伝的アルゴリズム、ニューラルネットワーク、共進化、進化的プログラミングといった戦略を採用している。
しかし、これらのアプローチは3X3の自明なボード状態を扱うため、一般化されたアルゴリズムが4X4,5X5,6X6および多くの高次状態を解決するための研究はほとんど行われていない。
Min-Maxアルゴリズムが存在するとしても、その再帰的な実装の性質のため、理想的な動きを思いつくには多くの時間がかかる。
この事実を証明するために、このリンク上にサンプルが作成されている。
本研究は,tic tac toeの高次基板状態に対する一般化アルゴリズム(近似法,学習ベース)を提供することにより,短時間で高精度な動作を実現することを目的とした。
また、より高いボード状態に対応するために必要なコード変更は、名目上行われる。
そのアイデアは、tic tac toe gameを適切な学習問題として位置づけることにある。
この研究とその成果は有望であり、トレーニングの各時代において高い引き分け率を得られる。
この研究は、ミネズウィーパー、チェス、goなどの類似のボードゲームに同じアルゴリズムを適用して効率的な戦略を見つけ、結果を比較することを他の研究者に促すかもしれない。
関連論文リスト
- Game Solving with Online Fine-Tuning [17.614045403579244]
本稿では,探索中のオンラインファインチューニングの適用について検討し,ゲーム問題解決のための最適設計計算を学習するための2つの方法を提案する。
実験の結果,オンラインファインチューニングを用いることで,ベースラインに比べて23.54%の時間しか利用できない7x7 Killall-Goの課題が解決できることがわかった。
論文 参考訳(メタデータ) (2023-11-13T09:09:52Z) - Learning to Play Stochastic Two-player Perfect-Information Games without
Knowledge [5.071342645033634]
我々はDescentフレームワークを拡張し、完全な情報を持つ2人プレイヤゲームのコンテキストにおける学習と計画を可能にする。
我々は、最先端のアルゴリズムに対してEin wurfelt!で評価する。
最良の結果を得るのはDescentの一般化である。
論文 参考訳(メタデータ) (2023-02-08T20:27:45Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Doubly Optimal No-Regret Online Learning in Strongly Monotone Games with Bandit Feedback [29.553652241608997]
本研究では,テキストモオと強いモノトーンゲームの研究を行い,その学習方法について検討した。
我々はまず,新しい帯域学習アルゴリズムを構築し,$tildeTheta(nsqrtT)$の単一エージェント最適後悔を実現することを示す。
そこで我々は,このオープンな問題を解決し,広範にわたるバンディットゲーム理論学習に寄与した。
論文 参考訳(メタデータ) (2021-12-06T08:27:54Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Mastering Terra Mystica: Applying Self-Play to Multi-agent Cooperative
Board Games [0.0]
本稿では,Terra Mysticaの複雑な戦略ゲームを解くための複数のアルゴリズムを探索し,比較する。
これらのブレークスルーをTMの新しい状態表現に適用し、人間のプレイヤーに匹敵するAIを作ることを目指しています。
最後に、複数のベースラインと典型的な人間のスコアを比較して、この手法の成功と欠点について議論する。
論文 参考訳(メタデータ) (2021-02-21T07:53:34Z) - Faster Algorithms for Optimal Ex-Ante Coordinated Collusive Strategies
in Extensive-Form Zero-Sum Games [123.76716667704625]
我々は,不完全情報ゼロサム拡張形式ゲームにおいて,対戦相手と対決する2人の選手のチームにとって最適な戦略を見つけることの課題に焦点をあてる。
この設定では、チームができる最善のことは、ゲーム開始時の関節(つまり相関した)確率分布から潜在的にランダム化された戦略(プレイヤー1人)のプロファイルをサンプリングすることである。
各プロファイルにランダム化されるのはチームメンバーの1人だけであるプロファイルのみを用いることで、そのような最適な分布を計算するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2020-09-21T17:51:57Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Near-Optimal Reinforcement Learning with Self-Play [50.29853537456737]
我々は,直接の監督なしに自己対決で最適な政策を学習するセルフプレイアルゴリズムに焦点をあてる。
本稿では,サンプル複雑性を$tildemathcalO(SAB)$,サンプル複雑性を$tildemathcalO(S(A+B)$とする新しいemphNash Vラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T05:00:13Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。