論文の概要: Towards Understanding the Effects of Evolving the MCTS UCT Selection
Policy
- arxiv url: http://arxiv.org/abs/2302.03352v1
- Date: Tue, 7 Feb 2023 09:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 16:50:57.844254
- Title: Towards Understanding the Effects of Evolving the MCTS UCT Selection
Policy
- Title(参考訳): MCTS UCT選択政策の展開効果の理解に向けて
- Authors: Fred Valdez Ameneyro and Edgar Galvan
- Abstract要約: 樹上信頼境界 (UCT) はモンテカルロ木探索 (MCTS) で広く使われている。
我々は,UDTの進化がマルチモーダルおよび偽装シナリオにおいてどのように有用かを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monte Carlo Tree Search (MCTS) is a sampling best-first method to search for
optimal decisions. The success of MCTS depends heavily on how the MCTS
statistical tree is built and the selection policy plays a fundamental role in
this. A particular selection policy that works particularly well, widely
adopted in MCTS, is the Upper Confidence Bounds for Trees, referred to as UCT.
Other more sophisticated bounds have been proposed by the community with the
goal to improve MCTS performance on particular problems. Thus, it is evident
that while the MCTS UCT behaves generally well, some variants might behave
better. As a result of this, multiple works have been proposed to evolve a
selection policy to be used in MCTS. Although all these works are inspiring,
none of them have carried out an in-depth analysis shedding light under what
circumstances an evolved alternative of MCTS UCT might be beneficial in MCTS
due to focusing on a single type of problem. In sharp contrast to this, in this
work we use five functions of different nature, going from a unimodal function,
covering multimodal functions to deceptive functions. We demonstrate how the
evolution of the MCTS UCT might be beneficial in multimodal and deceptive
scenarios, whereas the MCTS UCT is robust in unimodal scenarios and competitive
in the rest of the scenarios used in this study.
- Abstract(参考訳): Monte Carlo Tree Search (MCTS) は最適な決定を探索するためのサンプリング最優先の手法である。
MCTSの成功は、MCTSの統計木がどのように構築され、選択ポリシーがこれに基本的な役割を果たすかに大きく依存する。
特によく機能し、mctsで広く採用されている特定の選択方針は、uctと呼ばれる木に対する高い信頼度境界である。
他のより洗練された境界は、特定の問題におけるMCTSのパフォーマンスを改善することを目的として、コミュニティによって提案されている。
したがって、MCTS UCTは一般的によく振る舞うが、いくつかの変種はよりよく振る舞う。
この結果、MCTSで使用される選択ポリシーを進化させるために複数の研究が提案されている。
これらの研究はすべて刺激的だが、MCTS UCTの進化的な代替品がMCTSにどのような利点をもたらすかという状況下で光を深く分析する実験は行われていない。
これとは対照的に、この研究では、単項函数(unimodal function)から単項函数(deceptive function)まで、異なる性質の5つの函数を用いる。
MCTS UCTの進化は, マルチモーダルシナリオ, 偽装シナリオにおいて有用であり, 一方, MCTS UCTは単調シナリオでは頑健であり, その他のシナリオでは競争力がある。
関連論文リスト
- CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。
我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文 参考訳(メタデータ) (2024-10-22T03:59:53Z) - Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond [58.39457881271146]
CMAB(Multi-armed bandits)の多変量および確率的トリガーアーム(CMAB-MT)を用いた新しい枠組みを導入する。
CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。
本フレームワークは, エピソード強化学習(RL)や商品分布の確率的最大カバレッジなど, 応用として多くの重要な問題を含むことができる。
論文 参考訳(メタデータ) (2024-06-03T14:48:53Z) - What Makes Multimodal In-Context Learning Work? [58.48612721156335]
本稿では,M-ICL(Multimodal ICL)を大規模マルチモーダルモデルで検討するための枠組みを提案する。
M-ICLは主にテキスト駆動機構に依存しており、画像のモダリティからはほとんど影響を受けない。
我々は、M-ICLのいくつかのバイアスと限界を特定し、デプロイメント前に考慮することを保証している。
論文 参考訳(メタデータ) (2024-04-24T08:50:45Z) - Monte Carlo Tree Search in the Presence of Transition Uncertainty [33.40823938089618]
本稿では,モデルと実際の環境の相違が,標準MCTSによる性能劣化を引き起こすことを示す。
我々は、MCTSフレームワーク内でより堅牢なアルゴリズムである不確実性適応MCTS(UA-MCTS)を開発した。
UCBを適応させるために不確実性情報を加えると、通常の UCB よりも後悔の束縛が強くなることを示す。
論文 参考訳(メタデータ) (2023-12-18T17:02:27Z) - An Analysis on the Effects of Evolving the Monte Carlo Tree Search Upper
Confidence for Trees Selection Policy on Unimodal, Multimodal and Deceptive
Landscapes [0.0]
モンテカルロ木探索 (MCTS) は最適決定の探索に最も適したサンプリング法である。
MCTSで特にうまく機能する選択ポリシーは、樹上の信頼境界であり、UCTと呼ばれる。
本研究は, 単項関数から多項関数, 擬似関数まで, 異なる性質の5つの関数の利用について検討する。
論文 参考訳(メタデータ) (2023-11-21T20:40:34Z) - Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis [70.78170766633039]
我々は、MTS予測提案を確実かつ公平に評価する手段の必要性に対処する。
BasicTS+は、MTS予測ソリューションの公平で包括的で再現可能な比較を可能にするために設計されたベンチマークである。
リッチデータセットとともにBasicTS+を適用し,45 MTS以上の予測ソリューションの性能を評価する。
論文 参考訳(メタデータ) (2023-10-09T19:52:22Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Evolving the MCTS Upper Confidence Bounds for Trees Using a
Semantic-inspired Evolutionary Algorithm in the Game of Carcassonne [0.0]
我々はモンテカルロ木探索(MCTS)におけるセマンティック・インスパイアされた進化的アルゴリズムを提案する。
我々は進化的アルゴリズム(EA)を用いて、木式に上信頼境界を置き換えることを目的として数学的表現を進化させる。
SIEA-MCTSは、これらの進化した表現をチューニングすることなく、UTTよりも優れた、あるいは競争的な結果をもたらす数学的表現をうまく進化させることができるかを示す。
論文 参考訳(メタデータ) (2022-08-29T13:31:06Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - On the Evolution of the MCTS Upper Confidence Bounds for Trees by Means
of Evolutionary Algorithms in the Game of Carcassonne [0.0]
Monte Carlo Tree Search (MCTS) は最適な決定を探索するためのサンプリング最優先の手法である。
我々は、進化的アルゴリズム(EA)を用いて、木上の信頼境界(UCT)の数学的表現に代えて、数学的表現を進化させる。
ES-MCTSコントローラは、堅牢なUCTコントローラを含む、これらの10個のインテリジェントコントローラよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-17T18:06:21Z) - Monte Carlo Tree Search: A Review of Recent Modifications and
Applications [0.17205106391379024]
モンテカルロツリー検索(MCTS)は、ゲームプレイボットを設計したり、連続的な決定問題を解決するための強力なアプローチです。
この方法は、探索と搾取のバランスをとるインテリジェントな木探索に依存している。
しかし、この方法はより複雑なゲームでは最先端の技術となっている。
論文 参考訳(メタデータ) (2021-03-08T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。