Fugu-MT 論文翻訳(概要): StarCraft II Build Order Optimization using Deep Reinforcement Learning and Monte-Carlo Tree Search

論文の概要: StarCraft II Build Order Optimization using Deep Reinforcement Learning and Monte-Carlo Tree Search

arxiv url: http://arxiv.org/abs/2006.10525v1
Date: Fri, 12 Jun 2020 08:53:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-22 02:21:02.791779
Title: StarCraft II Build Order Optimization using Deep Reinforcement Learning and Monte-Carlo Tree Search
Title（参考訳）: 深部強化学習とモンテカルロ木探索を用いたStarCraft II構築順序最適化
Authors: Islam Elnabarawy, Kristijana Arroyo, Donald C. Wunsch II
Abstract要約: 本研究では,モンテカルロ木探索アルゴリズムに基づくエージェントを用いて,StarCraft IIのビルド順序を最適化する手法を提案する。より深い強化学習ニューラルネットワークと組み合わせることで、そのパフォーマンスをさらに向上する方法について論じる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The real-time strategy game of StarCraft II has been posed as a challenge for reinforcement learning by Google's DeepMind. This study examines the use of an agent based on the Monte-Carlo Tree Search algorithm for optimizing the build order in StarCraft II, and discusses how its performance can be improved even further by combining it with a deep reinforcement learning neural network. The experimental results accomplished using Monte-Carlo Tree Search achieves a score similar to a novice human player by only using very limited time and computational resources, which paves the way to achieving scores comparable to those of a human expert by combining it with the use of deep reinforcement learning.
Abstract（参考訳）: StarCraft IIのリアルタイム戦略ゲームは、GoogleのDeepMindによる強化学習の課題として提案されている。本研究では,モンテカルロ木探索アルゴリズムに基づくエージェントを用いて,StarCraft IIのビルド順序を最適化し,より深い強化学習ニューラルネットワークと組み合わせることで,その性能をさらに向上させる方法について検討する。モンテカルロ木探索を用いて行った実験結果は、非常に限られた時間と計算資源のみを用いて、初心者の人間プレイヤーに似たスコアを達成し、深層強化学習と組み合わせることで、人間の専門家に匹敵するスコアを得るための道を開く。

関連論文リスト

Adaptable Hindsight Experience Replay for Search-Based Learning [67.04721081824316]
我々は、AlphaZeroとHERを統合する柔軟なフレームワークであるAdaptable HER(ours)を紹介する。 Hindsight Experience Replay (HER)は、探索木からの軌跡を教師付き学習信号として許容することでこの問題に対処する。方程式探索を含む実験により,HERの変更の可能性は有益であり,純粋な教師付き学習や強化学習よりも優れていることが示された。
論文参考訳（メタデータ） (2025-11-05T12:13:23Z)
RL-LLM-DT: An Automatic Decision Tree Generation Method Based on RL Evaluation and LLM Enhancement [82.02155942106877]
RL評価とLLM強調に基づく自動決定木生成法であるRL-LLM-DTを提案する。この統合手法の有効性を評価するため,カーリングゲームで実験を行った。
論文参考訳（メタデータ） (2024-12-16T03:33:49Z)
Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。 GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文参考訳（メタデータ） (2024-06-29T05:14:04Z)
Tree-Based Adaptive Model Learning [62.997667081978825]
我々はKearns-Vazirani学習アルゴリズムを拡張し、時間とともに変化するシステムを扱う。本稿では,学習前の動作を再利用し,更新し,LearnerLibライブラリに実装し,大規模な実例で評価する学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-08-31T21:24:22Z)
Applying supervised and reinforcement learning methods to create neural-network-based agents for playing StarCraft II [0.0]
本稿では,汎用的な教師付き強化学習でトレーニングしたStarCraft IIのフル2プレーヤマッチングを実現するニューラルネットワークアーキテクチャを提案する。本実装では,ゲーム内スクリプトボットと比較して,非自明な性能を実現している。
論文参考訳（メタデータ） (2021-09-26T20:08:10Z)
Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文参考訳（メタデータ） (2021-04-17T20:33:24Z)
Dual Monte Carlo Tree Search [0.0]
我々はDual MCTSが、様々な対称ゲームや非対称ゲームにおいて最も広く使われているニューラルMCTSアルゴリズムであるAlphaZeroよりも優れていることを示す。デュアルMCTSは、2つの異なる検索木、単一のディープニューラルネットワーク、PUCB、スライドウィンドウ、およびepsilon-greedyアルゴリズムの組み合わせを使用して検索木のための新しい更新技術を使用しています。
論文参考訳（メタデータ） (2021-03-21T23:34:11Z)
Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文参考訳（メタデータ） (2021-01-08T18:55:07Z)
SCC: an efficient deep reinforcement learning agent mastering the game of StarCraft II [15.612456049715123]
AlphaStarは、StarCraft IIのGrandMasterレベルに達するAIであり、深い強化学習が達成できることを示す驚くべきマイルストーンです。我々は、深層強化学習エージェント、StarCraft Commander (SCC)を提案する。 SCCは、テストマッチでグランドマスタープレーヤーを倒し、ライブイベントでトッププロフェッショナルプレーヤーを倒す人間のパフォーマンスを実証します。
論文参考訳（メタデータ） (2020-12-24T08:43:44Z)
Chrome Dino Run using Reinforcement Learning [0.0]
我々は,Chrome Dino Runをプレイするエージェントをトレーニングするために,畳み込みニューラルネットワークとともに,最も人気のあるモデル強化学習アルゴリズムについて検討した。我々は、Deep Q-Learning(深層Q-Learning)とPre expecteded SARSA(SARSA)という2つの時間差分アプローチを使用し、エージェントを訓練するためにDouble DQNモデルを実装した。
論文参考訳（メタデータ） (2020-08-15T22:18:20Z)
Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文参考訳（メタデータ） (2020-07-10T09:33:05Z)
Single-Agent Optimization Through Policy Iteration Using Monte-Carlo Tree Search [8.22379888383833]
モンテカルロ・ツリー・サーチ(MCTS)と深部強化学習の組み合わせは,2プレイヤー完全情報ゲームにおける最先端の手法である。本稿では,MCTS の変種を利用した探索アルゴリズムについて述べる。1) 潜在的に有界な報酬を持つゲームに対する新たなアクション値正規化機構,2) 効果的な探索並列化を可能にする仮想損失関数の定義,3) 世代ごとのセルフプレイによって訓練されたポリシーネットワークについて述べる。
論文参考訳（メタデータ） (2020-05-22T18:02:36Z)
Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文参考訳（メタデータ） (2020-02-10T18:44:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。