論文の概要: An Analysis on the Effects of Evolving the Monte Carlo Tree Search Upper
Confidence for Trees Selection Policy on Unimodal, Multimodal and Deceptive
Landscapes
- arxiv url: http://arxiv.org/abs/2311.13609v1
- Date: Tue, 21 Nov 2023 20:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-03 14:13:31.935977
- Title: An Analysis on the Effects of Evolving the Monte Carlo Tree Search Upper
Confidence for Trees Selection Policy on Unimodal, Multimodal and Deceptive
Landscapes
- Title(参考訳): モンテカルロ・ツリー・サーチによる樹木選択政策の信頼度向上が一様,多様,偽りの景観に及ぼす影響に関する分析
- Authors: Edgar Galvan and Fred Valdez Ameneyro
- Abstract要約: モンテカルロ木探索 (MCTS) は最適決定の探索に最も適したサンプリング法である。
MCTSで特にうまく機能する選択ポリシーは、樹上の信頼境界であり、UCTと呼ばれる。
本研究は, 単項関数から多項関数, 擬似関数まで, 異なる性質の5つの関数の利用について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monte Carlo Tree Search (MCTS) is a best-first sampling method employed in
the search for optimal decisions. The effectiveness of MCTS relies on the
construction of its statistical tree, with the selection policy playing a
crucial role. A selection policy that works particularly well in MCTS is the
Upper Confidence Bounds for Trees, referred to as UCT. The research community
has also put forth more sophisticated bounds aimed at enhancing MCTS
performance on specific problem domains. Thus, while MCTS UCT generally
performs well, there may be variants that outperform it. This has led to
various efforts to evolve selection policies for use in MCTS. While all of
these previous works are inspiring, none have undertaken an in-depth analysis
to shed light on the circumstances in which an evolved alternative to MCTS UCT
might prove advantageous. Most of these studies have focused on a single type
of problem. In sharp contrast, this work explores the use of five functions of
different natures, ranging from unimodal to multimodal and deceptive functions.
We illustrate how the evolution of MCTS UCT can yield benefits in multimodal
and deceptive scenarios, whereas MCTS UCT is robust in all of the functions
used in this work.
- Abstract(参考訳): Monte Carlo Tree Search (MCTS) は最適な決定を探索するために最も優れたサンプリング手法である。
MCTSの有効性は、選択政策が重要な役割を果たす統計木の構築に依存している。
MCTSで特にうまく機能する選択ポリシーは、樹上の信頼境界であり、UCTと呼ばれる。
研究コミュニティは、特定の問題領域におけるMCTSのパフォーマンス向上を目的とした、より洗練された境界も設けている。
したがって、MCTS UCTは一般的によく機能するが、それを上回る変異があるかもしれない。
これにより、mctsで使用する選択ポリシーを進化させる様々な取り組みがなされた。
これらの以前の作品は全て刺激的だが、MCTS UCTの進化的な代替品が有利であるという状況に光を当てるために詳細な分析を行っていない。
これらの研究のほとんどは、単一のタイプの問題に焦点を当てている。
対照的に、この研究は、ユニモーダルからマルチモーダル、および偽りの関数まで、異なる性質の5つの関数の使用を探求する。
MCTS UCTの進化は, マルチモーダル, 偽りのシナリオにおいて, MCTS UCTの利点を生み出すのに対して, MCTS UCTは, 本研究で使用されるすべての機能において堅牢であることを示す。
関連論文リスト
- Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Fantastic Weights and How to Find Them: Where to Prune in Dynamic Sparse
Training [58.47622737624532]
本研究では,プルーニング基準が動的スパーストレーニング(DST)性能に及ぼす影響について検討する。
その結果,研究手法のほとんどが同様の結果をもたらすことがわかった。
最高のパフォーマンスは、最も単純なテクニックであるマグニチュードベースのプルーニングによって主に与えられる。
論文 参考訳(メタデータ) (2023-06-21T12:43:55Z) - Towards Understanding the Effects of Evolving the MCTS UCT Selection
Policy [0.0]
樹上信頼境界 (UCT) はモンテカルロ木探索 (MCTS) で広く使われている。
我々は,UDTの進化がマルチモーダルおよび偽装シナリオにおいてどのように有用かを示す。
論文 参考訳(メタデータ) (2023-02-07T09:50:55Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - Evolving the MCTS Upper Confidence Bounds for Trees Using a
Semantic-inspired Evolutionary Algorithm in the Game of Carcassonne [0.0]
我々はモンテカルロ木探索(MCTS)におけるセマンティック・インスパイアされた進化的アルゴリズムを提案する。
我々は進化的アルゴリズム(EA)を用いて、木式に上信頼境界を置き換えることを目的として数学的表現を進化させる。
SIEA-MCTSは、これらの進化した表現をチューニングすることなく、UTTよりも優れた、あるいは競争的な結果をもたらす数学的表現をうまく進化させることができるかを示す。
論文 参考訳(メタデータ) (2022-08-29T13:31:06Z) - On the Evolution of the MCTS Upper Confidence Bounds for Trees by Means
of Evolutionary Algorithms in the Game of Carcassonne [0.0]
Monte Carlo Tree Search (MCTS) は最適な決定を探索するためのサンプリング最優先の手法である。
我々は、進化的アルゴリズム(EA)を用いて、木上の信頼境界(UCT)の数学的表現に代えて、数学的表現を進化させる。
ES-MCTSコントローラは、堅牢なUCTコントローラを含む、これらの10個のインテリジェントコントローラよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-17T18:06:21Z) - Decomposed Soft Actor-Critic Method for Cooperative Multi-Agent
Reinforcement Learning [10.64928897082273]
実験の結果,mSACは政策ベースアプローチのCOMAよりも有意に優れていた。
さらに、mSACは2c_vs_64zgやMMM2のような大きなアクションスペースタスクでかなり良い結果をもたらします。
論文 参考訳(メタデータ) (2021-04-14T07:02:40Z) - Monte Carlo Tree Search: A Review of Recent Modifications and
Applications [0.17205106391379024]
モンテカルロツリー検索(MCTS)は、ゲームプレイボットを設計したり、連続的な決定問題を解決するための強力なアプローチです。
この方法は、探索と搾取のバランスをとるインテリジェントな木探索に依存している。
しかし、この方法はより複雑なゲームでは最先端の技術となっている。
論文 参考訳(メタデータ) (2021-03-08T17:44:15Z) - The Surprising Effectiveness of MAPPO in Cooperative, Multi-Agent Games [67.47961797770249]
マルチエージェントPPO(MAPPO)は、集中型値関数を採用するマルチエージェントPPOバリアントである。
MAPPOは,3つの一般的なマルチエージェントテストベッドにおいて,最先端技術に匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T18:59:56Z) - Monte-Carlo Tree Search as Regularized Policy Optimization [47.541849128047865]
我々は,AlphaZeroの探索アルゴリズムが,特定の正規化ポリシ最適化問題の解の近似であることを示す。
我々は、このポリシー最適化問題の正確な解法を用いて、AlphaZeroの変種を提案し、複数の領域において元のアルゴリズムを確実に上回ることを示す。
論文 参考訳(メタデータ) (2020-07-24T13:01:34Z) - Parameterizing Branch-and-Bound Search Trees to Learn Branching Policies [76.83991682238666]
Branch and Bound (B&B) は、Mixed-Integer Linear Programming Problem (MILP) の解法として一般的に用いられる木探索法である。
本稿では,新しい模倣学習フレームワークを提案し,分岐を表現するための新しい入力機能とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-12T17:43:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。