論文の概要: Monte-Carlo Graph Search for AlphaZero
- arxiv url: http://arxiv.org/abs/2012.11045v1
- Date: Sun, 20 Dec 2020 22:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 04:46:43.280059
- Title: Monte-Carlo Graph Search for AlphaZero
- Title(参考訳): alphazero に対するモンテカルログラフ探索
- Authors: Johannes Czech, Patrick Korus, Kristian Kersting
- Abstract要約: 探索木を有向非巡回グラフに一般化する,新しい改良されたalphazero探索アルゴリズムを提案する。
評価では、チェスとクレイジーハウスでCrazyAraエンジンを使用して、これらの変更がAlphaZeroに大きな改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 15.567057178736402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The AlphaZero algorithm has been successfully applied in a range of discrete
domains, most notably board games. It utilizes a neural network, that learns a
value and policy function to guide the exploration in a Monte-Carlo Tree
Search. Although many search improvements have been proposed for Monte-Carlo
Tree Search in the past, most of them refer to an older variant of the Upper
Confidence bounds for Trees algorithm that does not use a policy for planning.
We introduce a new, improved search algorithm for AlphaZero which generalizes
the search tree to a directed acyclic graph. This enables information flow
across different subtrees and greatly reduces memory consumption. Along with
Monte-Carlo Graph Search, we propose a number of further extensions, such as
the inclusion of Epsilon-greedy exploration, a revised terminal solver and the
integration of domain knowledge as constraints. In our evaluations, we use the
CrazyAra engine on chess and crazyhouse as examples to show that these changes
bring significant improvements to AlphaZero.
- Abstract(参考訳): AlphaZeroアルゴリズムは様々な独立した領域、特にボードゲームでうまく適用されている。
それは、モンテカルロ木探索の探索を導くために、価値とポリシー関数を学ぶニューラルネットワークを利用する。
モンテカルロ木探索では、過去に多くの探索改善が提案されてきたが、そのほとんどは、計画にポリシーを使用しない木アルゴリズムの高信頼境界の古い変種を参照している。
探索木を有向非巡回グラフに一般化する,新しい改良されたalphazero探索アルゴリズムを提案する。
これにより、異なるサブツリー間の情報フローが可能になり、メモリ消費を大幅に削減できる。
モンテカルログラフ探索と並行して,epsilon-greedy exploration,修正ターミナルソルバ,制約としてのドメイン知識の統合など,さらに多くの拡張を提案する。
評価では、チェスとクレイジーハウスでCrazyAraエンジンを使用して、これらの変更がAlphaZeroに大きな改善をもたらすことを示す。
関連論文リスト
- LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - AlphaZeroES: Direct score maximization outperforms planning loss minimization [61.17702187957206]
実行時の計画では、シングルエージェントとマルチエージェントの両方の設定でエージェントのパフォーマンスが劇的に向上することが示されている。
実行時に計画するアプローチのファミリは、AlphaZeroとその変種で、Monte Carlo Tree Searchと、状態値とアクション確率を予測することによって検索をガイドするニューラルネットワークを使用する。
複数の環境にまたがって、エピソードスコアを直接最大化し、計画損失を最小限に抑えることを示す。
論文 参考訳(メタデータ) (2024-06-12T23:00:59Z) - Monte-Carlo Tree Search for Multi-Agent Pathfinding: Preliminary Results [60.4817465598352]
マルチエージェントパスフィンディングに適したモンテカルロ木探索(MCTS)のオリジナル版を紹介する。
具体的には,エージェントの目標達成行動を支援するために,個別の経路を用いる。
また,木探索手順の分岐係数を低減するために,専用の分解手法を用いる。
論文 参考訳(メタデータ) (2023-07-25T12:33:53Z) - Nearly Optimal Steiner Trees using Graph Neural Network Assisted Monte
Carlo Tree Search [9.061356032792952]
グラフニューラルネットワークとモンテカルロ木探索を組み合わせたステイナツリーの計算手法について述べる。
まず、部分解として入力されるグラフニューラルネットワークをトレーニングし、出力として追加される新しいノードを提案する。
このニューラルネットワークはモンテカルロ探索でスタイナー木を計算するのに使用される。
論文 参考訳(メタデータ) (2023-04-30T17:15:38Z) - Beyond Games: A Systematic Review of Neural Monte Carlo Tree Search
Applications [0.0]
ゲーム以外の領域におけるニューラルモンテカルロ木探索法の適用について,129の論文を概説する。
我々の目標は、そのような手法が実際にどのように構成されているか、そしてその成功を他のドメインに拡張できるかどうかを体系的に評価することである。
論文 参考訳(メタデータ) (2023-03-14T16:52:31Z) - A Metaheuristic Algorithm for Large Maximum Weight Independent Set
Problems [58.348679046591265]
ノード重み付きグラフが与えられたとき、ノード重みが最大となる独立した(相互に非隣接な)ノードの集合を見つける。
このアプリケーションで放送されるグラフの中には、数十万のノードと数億のエッジを持つ大きなものもあります。
我々は,不規則なランダム化適応検索フレームワークにおいてメタヒューリスティックな新しい局所探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-03-28T21:34:16Z) - Batch Monte Carlo Tree Search [9.114710429587479]
この性質に基づいて,バッチ推論を用いたモンテカルロ木探索アルゴリズムを提案する。
転置テーブルは推論の結果を含むが、検索ツリーはモンテカルロツリー検索の統計情報を含む。
また、検索を改善する複数のアルゴリズムを分析することも提案している:$mu$ fpu、仮想平均、反復、第2の移動は続く。
論文 参考訳(メタデータ) (2021-04-09T09:54:21Z) - Evolving Reinforcement Learning Algorithms [186.62294652057062]
メタラーニング強化学習アルゴリズムの手法を提案する。
学習アルゴリズムはドメインに依存しないため、トレーニング中に見えない新しい環境に一般化することができる。
従来の制御タスク、gridworld型タスク、atariゲームよりも優れた一般化性能を得る2つの学習アルゴリズムに注目した。
論文 参考訳(メタデータ) (2021-01-08T18:55:07Z) - Monte-Carlo Tree Search as Regularized Policy Optimization [47.541849128047865]
我々は,AlphaZeroの探索アルゴリズムが,特定の正規化ポリシ最適化問題の解の近似であることを示す。
我々は、このポリシー最適化問題の正確な解法を用いて、AlphaZeroの変種を提案し、複数の領域において元のアルゴリズムを確実に上回ることを示す。
論文 参考訳(メタデータ) (2020-07-24T13:01:34Z) - Single-Agent Optimization Through Policy Iteration Using Monte-Carlo
Tree Search [8.22379888383833]
モンテカルロ・ツリー・サーチ(MCTS)と深部強化学習の組み合わせは,2プレイヤー完全情報ゲームにおける最先端の手法である。
本稿では,MCTS の変種を利用した探索アルゴリズムについて述べる。1) 潜在的に有界な報酬を持つゲームに対する新たなアクション値正規化機構,2) 効果的な探索並列化を可能にする仮想損失関数の定義,3) 世代ごとのセルフプレイによって訓練されたポリシーネットワークについて述べる。
論文 参考訳(メタデータ) (2020-05-22T18:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。