論文の概要: Developing a Successful Bomberman Agent
- arxiv url: http://arxiv.org/abs/2203.09608v1
- Date: Thu, 17 Mar 2022 20:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:29:40.440866
- Title: Developing a Successful Bomberman Agent
- Title(参考訳): 成功した爆撃機のエージェントの開発
- Authors: Dominik Kowalczyk, Jakub Kowalski, Hubert Obrzut, Micha{\l} Maras,
Szymon Kosakowski, Rados{\l}aw Miernik
- Abstract要約: 我々は,モンテカルロ木探索,ローリング水平展開,ビーム探索の3つの探索アルゴリズムの挙動を比較した。
本稿では,探索,対戦予測,ゲーム状態評価,ゲームエンジンエンコーディングに関するエージェントの強度向上に寄与する各種機能拡張を提案する。
- 参考スコア(独自算出の注目度): 0.6606016007748989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study AI approaches to successfully play a 2-4 players,
full information, Bomberman variant published on the CodinGame platform. We
compare the behavior of three search algorithms: Monte Carlo Tree Search,
Rolling Horizon Evolution, and Beam Search. We present various enhancements
leading to improve the agents' strength that concern search, opponent
prediction, game state evaluation, and game engine encoding. Our top agent
variant is based on a Beam Search with low-level bit-based state representation
and evaluation function heavy relying on pruning unpromising states based on
simulation-based estimation of survival. It reached the top one position among
the 2,300 AI agents submitted on the CodinGame arena.
- Abstract(参考訳): 本稿では,CodinGameプラットフォーム上で公開された2-4プレーヤー,フル情報,Bomberman変種をうまく演奏するためのAIアプローチについて検討する。
我々は,モンテカルロ木探索,ローリング水平展開,ビーム探索の3つの探索アルゴリズムの挙動を比較した。
本稿では,探索,対戦予測,ゲーム状態評価,ゲームエンジンエンコーディングに関するエージェントの強度向上に寄与する各種機能拡張を提案する。
我々のトップエージェントの変種は、シミュレーションに基づく生存率推定に基づいて、低レベルビットベースの状態表現と評価関数を重畳したビームサーチに基づいている。
これはcodingame arenaに提出された2300のaiエージェントの中でトップワンのポジションに達した。
関連論文リスト
- Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - Scaling Laws for Imitation Learning in Single-Agent Games [29.941613597833133]
我々は,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境に類似した改善がもたらされるかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
IL損失と平均戻り値は計算予算とスムーズに一致し,相関関係が強く,計算最適ILエージェントの訓練には電力法則が適用されることがわかった。
論文 参考訳(メタデータ) (2023-07-18T16:43:03Z) - Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。
私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。
我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文 参考訳(メタデータ) (2022-11-07T18:43:25Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Alpha-Mini: Minichess Agent with Deep Reinforcement Learning [0.0]
我々はエージェントにガードナーミニチェスのゲームに出場するように訓練する。
最終エージェントは、ランダムエージェントに対してほぼ(.97)完全勝利率を達成する。
また,自己再生によって得られる位置の集合を用いて,ネットワークの事前学習の効果についても検討する。
論文 参考訳(メタデータ) (2021-12-22T19:16:17Z) - A Fast Evolutionary adaptation for MCTS in Pommerman [0.0]
本稿では,進化的モンテカルロ木探索 (FEMCTS) エージェントを提案する。
同社は、Evolutionary Algorthims (EA) と Monte Carlo Tree Search (MCTS) のアイデアを借りて、Pommerman のゲームをしている。
論文 参考訳(メタデータ) (2021-11-26T23:26:33Z) - Discovering Multi-Agent Auto-Curricula in Two-Player Zero-Sum Games [31.97631243571394]
明示的な人間設計なしに更新ルールの発見を自動化するフレームワークであるLMACを導入する。
意外なことに、人間のデザインがなくても、発見されたMARLアルゴリズムは競争力や性能が向上する。
LMAC は,例えば Kuhn Poker のトレーニングやPSRO の成績など,小型ゲームから大規模ゲームへの一般化が可能であることを示す。
論文 参考訳(メタデータ) (2021-06-04T22:30:25Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Single-Agent Optimization Through Policy Iteration Using Monte-Carlo
Tree Search [8.22379888383833]
モンテカルロ・ツリー・サーチ(MCTS)と深部強化学習の組み合わせは,2プレイヤー完全情報ゲームにおける最先端の手法である。
本稿では,MCTS の変種を利用した探索アルゴリズムについて述べる。1) 潜在的に有界な報酬を持つゲームに対する新たなアクション値正規化機構,2) 効果的な探索並列化を可能にする仮想損失関数の定義,3) 世代ごとのセルフプレイによって訓練されたポリシーネットワークについて述べる。
論文 参考訳(メタデータ) (2020-05-22T18:02:36Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。