論文の概要: Towards Understanding the Effects of Evolving the MCTS UCT Selection
Policy
- arxiv url: http://arxiv.org/abs/2302.03352v1
- Date: Tue, 7 Feb 2023 09:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 16:50:57.844254
- Title: Towards Understanding the Effects of Evolving the MCTS UCT Selection
Policy
- Title(参考訳): MCTS UCT選択政策の展開効果の理解に向けて
- Authors: Fred Valdez Ameneyro and Edgar Galvan
- Abstract要約: 樹上信頼境界 (UCT) はモンテカルロ木探索 (MCTS) で広く使われている。
我々は,UDTの進化がマルチモーダルおよび偽装シナリオにおいてどのように有用かを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monte Carlo Tree Search (MCTS) is a sampling best-first method to search for
optimal decisions. The success of MCTS depends heavily on how the MCTS
statistical tree is built and the selection policy plays a fundamental role in
this. A particular selection policy that works particularly well, widely
adopted in MCTS, is the Upper Confidence Bounds for Trees, referred to as UCT.
Other more sophisticated bounds have been proposed by the community with the
goal to improve MCTS performance on particular problems. Thus, it is evident
that while the MCTS UCT behaves generally well, some variants might behave
better. As a result of this, multiple works have been proposed to evolve a
selection policy to be used in MCTS. Although all these works are inspiring,
none of them have carried out an in-depth analysis shedding light under what
circumstances an evolved alternative of MCTS UCT might be beneficial in MCTS
due to focusing on a single type of problem. In sharp contrast to this, in this
work we use five functions of different nature, going from a unimodal function,
covering multimodal functions to deceptive functions. We demonstrate how the
evolution of the MCTS UCT might be beneficial in multimodal and deceptive
scenarios, whereas the MCTS UCT is robust in unimodal scenarios and competitive
in the rest of the scenarios used in this study.
- Abstract(参考訳): Monte Carlo Tree Search (MCTS) は最適な決定を探索するためのサンプリング最優先の手法である。
MCTSの成功は、MCTSの統計木がどのように構築され、選択ポリシーがこれに基本的な役割を果たすかに大きく依存する。
特によく機能し、mctsで広く採用されている特定の選択方針は、uctと呼ばれる木に対する高い信頼度境界である。
他のより洗練された境界は、特定の問題におけるMCTSのパフォーマンスを改善することを目的として、コミュニティによって提案されている。
したがって、MCTS UCTは一般的によく振る舞うが、いくつかの変種はよりよく振る舞う。
この結果、MCTSで使用される選択ポリシーを進化させるために複数の研究が提案されている。
これらの研究はすべて刺激的だが、MCTS UCTの進化的な代替品がMCTSにどのような利点をもたらすかという状況下で光を深く分析する実験は行われていない。
これとは対照的に、この研究では、単項函数(unimodal function)から単項函数(deceptive function)まで、異なる性質の5つの函数を用いる。
MCTS UCTの進化は, マルチモーダルシナリオ, 偽装シナリオにおいて有用であり, 一方, MCTS UCTは単調シナリオでは頑健であり, その他のシナリオでは競争力がある。
関連論文リスト
- Monte Carlo Tree Search in the Presence of Transition Uncertainty [33.40823938089618]
本稿では,モデルと実際の環境の相違が,標準MCTSによる性能劣化を引き起こすことを示す。
我々は、MCTSフレームワーク内でより堅牢なアルゴリズムである不確実性適応MCTS(UA-MCTS)を開発した。
UCBを適応させるために不確実性情報を加えると、通常の UCB よりも後悔の束縛が強くなることを示す。
論文 参考訳(メタデータ) (2023-12-18T17:02:27Z) - An Analysis on the Effects of Evolving the Monte Carlo Tree Search Upper
Confidence for Trees Selection Policy on Unimodal, Multimodal and Deceptive
Landscapes [0.0]
モンテカルロ木探索 (MCTS) は最適決定の探索に最も適したサンプリング法である。
MCTSで特にうまく機能する選択ポリシーは、樹上の信頼境界であり、UCTと呼ばれる。
本研究は, 単項関数から多項関数, 擬似関数まで, 異なる性質の5つの関数の利用について検討する。
論文 参考訳(メタデータ) (2023-11-21T20:40:34Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - Evolving the MCTS Upper Confidence Bounds for Trees Using a
Semantic-inspired Evolutionary Algorithm in the Game of Carcassonne [0.0]
我々はモンテカルロ木探索(MCTS)におけるセマンティック・インスパイアされた進化的アルゴリズムを提案する。
我々は進化的アルゴリズム(EA)を用いて、木式に上信頼境界を置き換えることを目的として数学的表現を進化させる。
SIEA-MCTSは、これらの進化した表現をチューニングすることなく、UTTよりも優れた、あるいは競争的な結果をもたらす数学的表現をうまく進化させることができるかを示す。
論文 参考訳(メタデータ) (2022-08-29T13:31:06Z) - Increasing Students' Engagement to Reminder Emails Through Multi-Armed
Bandits [60.4933541247257]
本稿では,学生が週毎のメールリマインダーとどのように関わり,時間管理の習慣を構築するかについて,実世界の適応実験を行った。
適応実験にマルチアーマド・バンド(MAB)アルゴリズムを用いると、より良い結果が得られる可能性が高まる。
我々は、これらの適応アルゴリズムの問題点を強調します。例えば、大きな違いがない場合の腕の活用などです。
論文 参考訳(メタデータ) (2022-08-10T00:30:52Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - On the Evolution of the MCTS Upper Confidence Bounds for Trees by Means
of Evolutionary Algorithms in the Game of Carcassonne [0.0]
Monte Carlo Tree Search (MCTS) は最適な決定を探索するためのサンプリング最優先の手法である。
我々は、進化的アルゴリズム(EA)を用いて、木上の信頼境界(UCT)の数学的表現に代えて、数学的表現を進化させる。
ES-MCTSコントローラは、堅牢なUCTコントローラを含む、これらの10個のインテリジェントコントローラよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-17T18:06:21Z) - Monte Carlo Tree Search for high precision manufacturing [55.60116686945561]
我々は、専門家ベースのシミュレータを使用し、MCTSのデフォルトポリシーを適用して製造プロセスに対処する。
一般的な理由は、プロセスの効率的なシミュレータが存在しないことや、MCTSをプロセスの複雑な規則に適用する際の問題があることである。
論文 参考訳(メタデータ) (2021-07-28T14:56:17Z) - Adversarial Option-Aware Hierarchical Imitation Learning [89.92994158193237]
提案するOption-GAILは,遠隔地平線でスキルを学ぶための新しい手法である。
Option-GAILの鍵となる考え方は、タスク階層をオプションでモデル化し、生成的敵最適化を通じてポリシーを訓練することである。
実験によると、Option-GAILはさまざまなタスクにおいて、他のタスクよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2021-06-10T06:42:05Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Monte Carlo Tree Search: A Review of Recent Modifications and
Applications [0.17205106391379024]
モンテカルロツリー検索(MCTS)は、ゲームプレイボットを設計したり、連続的な決定問題を解決するための強力なアプローチです。
この方法は、探索と搾取のバランスをとるインテリジェントな木探索に依存している。
しかし、この方法はより複雑なゲームでは最先端の技術となっている。
論文 参考訳(メタデータ) (2021-03-08T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。