論文の概要: Evolving the MCTS Upper Confidence Bounds for Trees Using a
Semantic-inspired Evolutionary Algorithm in the Game of Carcassonne
- arxiv url: http://arxiv.org/abs/2208.13589v1
- Date: Mon, 29 Aug 2022 13:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:21:05.283623
- Title: Evolving the MCTS Upper Confidence Bounds for Trees Using a
Semantic-inspired Evolutionary Algorithm in the Game of Carcassonne
- Title(参考訳): カルカソンヌゲームにおけるセマンティック・インスパイアされた進化的アルゴリズムを用いた樹上信頼境界の進化
- Authors: Edgar Galv\'an, Gavin Simpson, and Fred Valdez Ameneyro
- Abstract要約: 我々はモンテカルロ木探索(MCTS)におけるセマンティック・インスパイアされた進化的アルゴリズムを提案する。
我々は進化的アルゴリズム(EA)を用いて、木式に上信頼境界を置き換えることを目的として数学的表現を進化させる。
SIEA-MCTSは、これらの進化した表現をチューニングすることなく、UTTよりも優れた、あるいは競争的な結果をもたらす数学的表現をうまく進化させることができるかを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monte Carlo Tree Search (MCTS) is a sampling best-first method to search for
optimal decisions. The success of MCTS depends heavily on how the tree is built
and the selection process plays a fundamental role in this. One particular
selection mechanism that has proved to be reliable is based on the Upper
Confidence Bounds for Trees (UCT). The UCT attempts to balance exploration and
exploitation by considering the values stored in the statistical tree of the
MCTS. However, some tuning of the MCTS UCT is necessary for this to work well.
In this work, we use Evolutionary Algorithms (EAs) to evolve mathematical
expressions with the goal to substitute the UCT formula and use the evolved
expressions in MCTS. More specifically, we evolve expressions by means of our
proposed Semantic-inspired Evolutionary Algorithm in MCTS approach (SIEA-MCTS).
This is inspired by semantics in Genetic Programming (GP), where the use of
fitness cases is seen as a requirement to be adopted in GP. Fitness cases are
normally used to determine the fitness of individuals and can be used to
compute the semantic similarity (or dissimilarity) of individuals. However,
fitness cases are not available in MCTS. We extend this notion by using
multiple reward values from MCTS that allow us to determine both the fitness of
an individual and its semantics. By doing so, we show how SIEA-MCTS is able to
successfully evolve mathematical expressions that yield better or competitive
results compared to UCT without the need of tuning these evolved expressions.
We compare the performance of the proposed SIEA-MCTS against MCTS algorithms,
MCTS Rapid Action Value Estimation algorithms, three variants of the *-minimax
family of algorithms, a random controller and two more EA approaches. We
consistently show how SIEA-MCTS outperforms most of these intelligent
controllers in the challenging game of Carcassonne.
- Abstract(参考訳): Monte Carlo Tree Search (MCTS) は最適な決定を探索するためのサンプリング最優先の手法である。
mctsの成功は、ツリーの構築方法に大きく依存し、選択プロセスがこれにおいて基本的な役割を果たす。
信頼性が証明された特定の選択メカニズムの1つは、木に対する上部信頼境界(UCT)に基づいている。
UCTは、MCTSの統計ツリーに格納されている値を考慮して、探索と利用のバランスをとる。
しかし、mcts uctのチューニングは、これがうまく機能するためには必要である。
本研究では,進化的アルゴリズム(eas)を用いて数式を進化させ,uctの公式を代用し,mctsにおける進化的表現を用いる。
より具体的には、提案する意味に触発された進化的アルゴリズム(siea-mcts)を用いて表現を進化させる。
これは遺伝的プログラミング(GP)のセマンティクスにインスパイアされたもので、適合性ケースの使用はGPで採用されるべき要件と見なされる。
フィットネスケースは通常、個人の適合度を決定するために使用され、個人の意味的類似性(または相似性)を計算するために使用される。
しかし、MCTSではフィットネスケースは利用できない。
我々は、MCTSの複数の報酬値を用いて、個人の適合度と意味論の両方を決定できるようにこの概念を拡張した。
これにより、SIEA-MCTSは、これらの進化した表現をチューニングすることなく、UTTよりも優れた、あるいは競争的な結果をもたらす数学的表現をうまく進化させることができるかを示す。
提案するsiea-mctsの性能を,mctsアルゴリズム,mctsラピッドアクション値推定アルゴリズム,*-minimaxアルゴリズムの3つの変種,ランダムコントローラ,さらに2つのeaアプローチと比較した。
SIEA-MCTSは、カーカソンヌの挑戦的なゲームにおいて、これらのインテリジェントコントローラのほとんどを上回っていることを示す。
関連論文リスト
- LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Optimized Monte Carlo Tree Search for Enhanced Decision Making in the FrozenLake Environment [0.0]
Monte Carlo Tree Search (MCTS) は複雑な意思決定問題を解決する強力なアルゴリズムである。
本稿では,古典的強化学習課題であるFrozenLake環境に適用したMCTS実装を提案する。
論文 参考訳(メタデータ) (2024-09-25T05:04:53Z) - An Analysis on the Effects of Evolving the Monte Carlo Tree Search Upper
Confidence for Trees Selection Policy on Unimodal, Multimodal and Deceptive
Landscapes [0.0]
モンテカルロ木探索 (MCTS) は最適決定の探索に最も適したサンプリング法である。
MCTSで特にうまく機能する選択ポリシーは、樹上の信頼境界であり、UCTと呼ばれる。
本研究は, 単項関数から多項関数, 擬似関数まで, 異なる性質の5つの関数の利用について検討する。
論文 参考訳(メタデータ) (2023-11-21T20:40:34Z) - Bayesian Decision Trees Inspired from Evolutionary Algorithms [64.80360020499555]
我々は、マルコフ連鎖モンテカルロ(MCMC)を本質的に並列なアルゴリズムであるシーケンシャルモンテカルロ(SMC)に置き換えることを提案する。
実験により、SMCと進化的アルゴリズム(EA)を組み合わせることで、MCMCの100倍のイテレーションでより正確な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-30T06:17:35Z) - Towards Understanding the Effects of Evolving the MCTS UCT Selection
Policy [0.0]
樹上信頼境界 (UCT) はモンテカルロ木探索 (MCTS) で広く使われている。
我々は,UDTの進化がマルチモーダルおよび偽装シナリオにおいてどのように有用かを示す。
論文 参考訳(メタデータ) (2023-02-07T09:50:55Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - On the Evolution of the MCTS Upper Confidence Bounds for Trees by Means
of Evolutionary Algorithms in the Game of Carcassonne [0.0]
Monte Carlo Tree Search (MCTS) は最適な決定を探索するためのサンプリング最優先の手法である。
我々は、進化的アルゴリズム(EA)を用いて、木上の信頼境界(UCT)の数学的表現に代えて、数学的表現を進化させる。
ES-MCTSコントローラは、堅牢なUCTコントローラを含む、これらの10個のインテリジェントコントローラよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-17T18:06:21Z) - Monte Carlo Tree Search: A Review of Recent Modifications and
Applications [0.17205106391379024]
モンテカルロツリー検索(MCTS)は、ゲームプレイボットを設計したり、連続的な決定問題を解決するための強力なアプローチです。
この方法は、探索と搾取のバランスをとるインテリジェントな木探索に依存している。
しかし、この方法はより複雑なゲームでは最先端の技術となっている。
論文 参考訳(メタデータ) (2021-03-08T17:44:15Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - On Effective Parallelization of Monte Carlo Tree Search [51.15940034629022]
モンテカルロ木探索(MCTS)は、探索木を構築するためにかなりの数のロールアウトを必要とするため、計算コストがかかる。
効果的な並列MCTSアルゴリズムを設計する方法は、体系的に研究されておらず、まだよく分かっていない。
我々は,より効率的な並列MCTSアルゴリズムの設計に,提案する必要条件をどのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-15T21:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。