論文の概要: Multi-Armed Bandits for Minesweeper: Profiting from
Exploration-Exploitation Synergy
- arxiv url: http://arxiv.org/abs/2007.12824v2
- Date: Thu, 17 Jun 2021 21:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 00:34:52.401979
- Title: Multi-Armed Bandits for Minesweeper: Profiting from
Exploration-Exploitation Synergy
- Title(参考訳): マイニングスウィーパーのマルチアーマッドバンド:探索-膨張相乗効果による利益
- Authors: Igor Q. Lordeiro, Diego B. Haddad, Douglas O. Cardoso
- Abstract要約: 人気のコンピュータパズルであるマインズウィーパーのゲームでは、人間のプレイヤーは幸運と戦略の両方を混ぜて成功させる必要がある。
我々は,このゲームで提示される問題に対処するために,強化学習に基づく新しい方法論を開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A popular computer puzzle, the game of Minesweeper requires its human players
to have a mix of both luck and strategy to succeed. Analyzing these aspects
more formally, in our research we assessed the feasibility of a novel
methodology based on Reinforcement Learning as an adequate approach to tackle
the problem presented by this game. For this purpose we employed Multi-Armed
Bandit algorithms which were carefully adapted in order to enable their use to
define autonomous computational players, targeting to make the best use of some
game peculiarities. After experimental evaluation, results showed that this
approach was indeed successful, especially in smaller game boards, such as the
standard beginner level. Despite this fact the main contribution of this work
is a detailed examination of Minesweeper from a learning perspective, which led
to various original insights which are thoroughly discussed.
- Abstract(参考訳): 人気のコンピュータパズル、the game of minesweeperは、人間プレイヤーに幸運と戦略の両方を組み合わせることを要求している。
これらの側面をより形式的に分析し,本ゲームが提示する問題に取り組むための適切なアプローチとして,強化学習に基づく新しい方法論の実現可能性を評価した。
この目的のために,マルチアームのバンディットアルゴリズムを採用し,自律的な計算プレイヤーを定義するために,ゲームの特徴を最大限に活用することを目標とした。
実験結果から,特に標準的な初心者レベルなど,より小さなゲームボードにおいて,この手法が成功していることが明らかとなった。
この事実にもかかわらず、この研究の主な貢献は、学習の観点からのマインズウィーパーの詳細な検証であり、様々な独自の洞察が十分に議論されている。
関連論文リスト
- Multi-Player Approaches for Dueling Bandits [58.442742345319225]
Follow Your Leaderのブラックボックスアプローチの直接的な使用は、この設定の低いバウンダリと一致することを示す。
また,Condorcet-Winnerレコメンデーションプロトコルを用いて,メッセージパッシングによる完全分散アプローチも分析する。
論文 参考訳(メタデータ) (2024-05-25T10:25:48Z) - Two-Step Reinforcement Learning for Multistage Strategy Card Game [0.0]
本研究では,「指輪のロード:カードゲーム(LOTRCG)」に適した2段階強化学習(RL)戦略を紹介する。
本研究は,段階学習アプローチを採用することにより,従来のRL手法から分岐する。
また,異なるRLエージェントがゲームにおける様々な意思決定に使用されるマルチエージェントシステムについても検討した。
論文 参考訳(メタデータ) (2023-11-29T01:31:21Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Optimisation of MCTS Player for The Lord of the Rings: The Card Game [0.0]
本稿では,モンテカルロツリーサーチ(MCTS)手法を用いて,人気カードゲーム「指輪のロード」の人工プレイヤーを作成する研究について述べる。
論文 参考訳(メタデータ) (2021-09-24T14:42:32Z) - MCTS Based Agents for Multistage Single-Player Card Game [0.0]
この記事では、カードゲームLord of the RingsにおけるMonte Carlo Tree Searchアルゴリズムの使用について紹介する。
主な課題はゲーム力学の複雑さであり、各ラウンドは5つの決定段階と2つのランダムステージから構成される。
様々な意思決定アルゴリズムをテストするために,ゲームシミュレータが実装されている。
論文 参考訳(メタデータ) (2021-09-24T10:56:54Z) - Strategically Efficient Exploration in Competitive Multi-agent
Reinforcement Learning [25.041622707261897]
本研究は,非協調的マルチエージェント環境における楽観的な探索の役割を理解することを目的とする。
ゼロサムゲームにおいて、楽観的な探索は、学習者が戦略的なプレーとは無関係な状態空間のサンプリング部分を無駄にしてしまうことを示します。
この問題に対処するため、マルコフゲームにおいて戦略的に効率的な探索という形式的概念を導入し、これを有限マルコフゲームのための戦略的に効率的な2つの学習アルゴリズムの開発に利用する。
論文 参考訳(メタデータ) (2021-07-30T15:22:59Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Efficient Pure Exploration for Combinatorial Bandits with Semi-Bandit
Feedback [51.21673420940346]
コンビナーシャルバンディットはマルチアームバンディットを一般化し、エージェントが腕のセットを選択し、選択したセットに含まれる各腕の騒々しい報酬を観察します。
我々は, 最善の腕を一定の信頼度で識別する純粋爆発問題と, 応答集合の構造が動作集合の1つと異なるような, より一般的な設定に注目する。
有限多面体に対するプロジェクションフリーオンライン学習アルゴリズムに基づいて、凸的に最適であり、競争力のある経験的性能を持つ最初の計算効率の良いアルゴリズムである。
論文 参考訳(メタデータ) (2021-01-21T10:35:09Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。