論文の概要: Dual Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2103.11517v1
- Date: Sun, 21 Mar 2021 23:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 08:24:35.852359
- Title: Dual Monte Carlo Tree Search
- Title(参考訳): Dual Monte Carlo Tree Search
- Authors: Prashank Kadam, Ruiyang Xu, Karl Lieberherr
- Abstract要約: 我々はDual MCTSが、様々な対称ゲームや非対称ゲームにおいて最も広く使われているニューラルMCTSアルゴリズムであるAlphaZeroよりも優れていることを示す。
デュアルMCTSは、2つの異なる検索木、単一のディープニューラルネットワーク、PUCB、スライドウィンドウ、およびepsilon-greedyアルゴリズムの組み合わせを使用して検索木のための新しい更新技術を使用しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AlphaZero, using a combination of Deep Neural Networks and Monte Carlo Tree
Search (MCTS), has successfully trained reinforcement learning agents in a
tabula-rasa way. The neural MCTS algorithm has been successful in finding
near-optimal strategies for games through self-play. However, the AlphaZero
algorithm has a significant drawback; it takes a long time to converge and
requires high computational power due to complex neural networks for solving
games like Chess, Go, Shogi, etc. Owing to this, it is very difficult to pursue
neural MCTS research without cutting-edge hardware, which is a roadblock for
many aspiring neural MCTS researchers. In this paper, we propose a new neural
MCTS algorithm, called Dual MCTS, which helps overcome these drawbacks. Dual
MCTS uses two different search trees, a single deep neural network, and a new
update technique for the search trees using a combination of the PUCB, a
sliding-window, and the epsilon-greedy algorithm. This technique is applicable
to any MCTS based algorithm to reduce the number of updates to the tree. We
show that Dual MCTS performs better than one of the most widely used neural
MCTS algorithms, AlphaZero, for various symmetric and asymmetric games.
- Abstract(参考訳): AlphaZeroはDeep Neural NetworksとMonte Carlo Tree Search(MCTS)を組み合わせて、タブラララサ方式で強化学習エージェントのトレーニングに成功した。
ニューラルMCTSアルゴリズムは、セルフプレイによるゲームの準最適戦略の発見に成功している。
しかし、alphazeroアルゴリズムは、チェス、go、shogiなどのゲームを解くために複雑なニューラルネットワークのため、収束するのに長い時間がかかり、高い計算能力を必要とするという大きな欠点がある。
このため、最先端のハードウェアを使わずに神経MCTSの研究を追求することは極めて困難であり、多くの神経MCTS研究者にとって障害となる。
本稿では,これらの欠点を克服するための新しいニューラルmctsアルゴリズム,dual mctsを提案する。
dual mctsは2つの異なる探索木、1つのディープニューラルネットワーク、pucb、スライディングウィンドウ、epsilon-greedyアルゴリズムを組み合わせた新しい探索木のアップデート技術を使用している。
この手法は任意のmctsベースのアルゴリズムに適用でき、木への更新回数を減らすことができる。
我々はDual MCTSが、様々な対称ゲームや非対称ゲームにおいて最も広く使われているニューラルMCTSアルゴリズムであるAlphaZeroよりも優れていることを示す。
関連論文リスト
- LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。
具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。
また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文 参考訳(メタデータ) (2023-07-25T12:33:53Z) - Proof Number Based Monte-Carlo Tree Search [1.93674821880689]
本稿では,モンテカルロ木探索(MCTS)とProof-Number Search(PNS)を組み合わせた新しいゲーム検索アルゴリズムであるPN-MCTSを提案する。
本研究は,MCTS木に蓄積された証明値と防腐数から得られる付加的な知識を活用可能な3つの領域を定義する。
実験の結果、PN-MCTSは全てのテストされたゲーム領域でMCTSを上回り、ライン・オブ・アクションで96.2%の勝利率を達成した。
論文 参考訳(メタデータ) (2023-03-16T16:27:07Z) - Alphazzle: Jigsaw Puzzle Solver with Deep Monte-Carlo Tree Search [30.43614740245788]
シングルプレイヤーモンテカルロ木探索(MCTS)に基づく組換えアルゴリズムAlphazzleを導入する。
DRLアルゴリズムとの大きな違いは、MCTSのゲーム報酬が利用できないことである。
我々は、MCTSとニューラルネットワークが協調して働くことの重要性を示す深度アブレーション研究を行う。
論文 参考訳(メタデータ) (2023-02-01T11:41:21Z) - Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文 参考訳(メタデータ) (2022-01-24T19:10:22Z) - On the Evolution of the MCTS Upper Confidence Bounds for Trees by Means
of Evolutionary Algorithms in the Game of Carcassonne [0.0]
Monte Carlo Tree Search (MCTS) は最適な決定を探索するためのサンプリング最優先の手法である。
我々は、進化的アルゴリズム(EA)を用いて、木上の信頼境界(UCT)の数学的表現に代えて、数学的表現を進化させる。
ES-MCTSコントローラは、堅牢なUCTコントローラを含む、これらの10個のインテリジェントコントローラよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-17T18:06:21Z) - Learning to Stop: Dynamic Simulation Monte-Carlo Tree Search [66.34387649910046]
モンテカルロ木探索(MCTS)は、囲碁やアタリゲームなど多くの領域で最先端の結果を得た。
我々は,現在の検索状況の不確かさを予測し,その結果を用いて検索をやめるべきかどうかを判断することで,この目標を達成することを提案する。
論文 参考訳(メタデータ) (2020-12-14T19:49:25Z) - On Effective Parallelization of Monte Carlo Tree Search [51.15940034629022]
モンテカルロ木探索(MCTS)は、探索木を構築するためにかなりの数のロールアウトを必要とするため、計算コストがかかる。
効果的な並列MCTSアルゴリズムを設計する方法は、体系的に研究されておらず、まだよく分かっていない。
我々は,より効率的な並列MCTSアルゴリズムの設計に,提案する必要条件をどのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-15T21:36:00Z) - StarCraft II Build Order Optimization using Deep Reinforcement Learning
and Monte-Carlo Tree Search [0.0]
本研究では,モンテカルロ木探索アルゴリズムに基づくエージェントを用いて,StarCraft IIのビルド順序を最適化する手法を提案する。
より深い強化学習ニューラルネットワークと組み合わせることで、そのパフォーマンスをさらに向上する方法について論じる。
論文 参考訳(メタデータ) (2020-06-12T08:53:52Z) - Single-Agent Optimization Through Policy Iteration Using Monte-Carlo
Tree Search [8.22379888383833]
モンテカルロ・ツリー・サーチ(MCTS)と深部強化学習の組み合わせは,2プレイヤー完全情報ゲームにおける最先端の手法である。
本稿では,MCTS の変種を利用した探索アルゴリズムについて述べる。1) 潜在的に有界な報酬を持つゲームに対する新たなアクション値正規化機構,2) 効果的な探索並列化を可能にする仮想損失関数の定義,3) 世代ごとのセルフプレイによって訓練されたポリシーネットワークについて述べる。
論文 参考訳(メタデータ) (2020-05-22T18:02:36Z) - AutoML-Zero: Evolving Machine Learning Algorithms From Scratch [76.83052807776276]
基本数学的操作をビルディングブロックとして使うだけで,完全な機械学習アルゴリズムを自動的に発見できることが示される。
汎用的な検索空間を通じて人間のバイアスを大幅に低減する新しいフレームワークを導入することでこれを実証する。
機械学習アルゴリズムをゼロから発見する上で、これらの予備的な成功は、この分野における有望な新しい方向性を示していると信じている。
論文 参考訳(メタデータ) (2020-03-06T19:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。