Fugu-MT 論文翻訳(概要): An Analysis on the Effects of Evolving the Monte Carlo Tree Search Upper Confidence for Trees Selection Policy on Unimodal, Multimodal and Deceptive Landscapes

論文の概要: An Analysis on the Effects of Evolving the Monte Carlo Tree Search Upper Confidence for Trees Selection Policy on Unimodal, Multimodal and Deceptive Landscapes

arxiv url: http://arxiv.org/abs/2311.13609v1
Date: Tue, 21 Nov 2023 20:40:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-03 14:13:31.935977
Title: An Analysis on the Effects of Evolving the Monte Carlo Tree Search Upper Confidence for Trees Selection Policy on Unimodal, Multimodal and Deceptive Landscapes
Title（参考訳）: モンテカルロ・ツリー・サーチによる樹木選択政策の信頼度向上が一様,多様,偽りの景観に及ぼす影響に関する分析
Authors: Edgar Galvan and Fred Valdez Ameneyro
Abstract要約: モンテカルロ木探索 (MCTS) は最適決定の探索に最も適したサンプリング法である。 MCTSで特にうまく機能する選択ポリシーは、樹上の信頼境界であり、UCTと呼ばれる。本研究は, 単項関数から多項関数, 擬似関数まで, 異なる性質の5つの関数の利用について検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Monte Carlo Tree Search (MCTS) is a best-first sampling method employed in the search for optimal decisions. The effectiveness of MCTS relies on the construction of its statistical tree, with the selection policy playing a crucial role. A selection policy that works particularly well in MCTS is the Upper Confidence Bounds for Trees, referred to as UCT. The research community has also put forth more sophisticated bounds aimed at enhancing MCTS performance on specific problem domains. Thus, while MCTS UCT generally performs well, there may be variants that outperform it. This has led to various efforts to evolve selection policies for use in MCTS. While all of these previous works are inspiring, none have undertaken an in-depth analysis to shed light on the circumstances in which an evolved alternative to MCTS UCT might prove advantageous. Most of these studies have focused on a single type of problem. In sharp contrast, this work explores the use of five functions of different natures, ranging from unimodal to multimodal and deceptive functions. We illustrate how the evolution of MCTS UCT can yield benefits in multimodal and deceptive scenarios, whereas MCTS UCT is robust in all of the functions used in this work.
Abstract（参考訳）: Monte Carlo Tree Search (MCTS) は最適な決定を探索するために最も優れたサンプリング手法である。 MCTSの有効性は、選択政策が重要な役割を果たす統計木の構築に依存している。 MCTSで特にうまく機能する選択ポリシーは、樹上の信頼境界であり、UCTと呼ばれる。研究コミュニティは、特定の問題領域におけるMCTSのパフォーマンス向上を目的とした、より洗練された境界も設けている。したがって、MCTS UCTは一般的によく機能するが、それを上回る変異があるかもしれない。これにより、mctsで使用する選択ポリシーを進化させる様々な取り組みがなされた。これらの以前の作品は全て刺激的だが、MCTS UCTの進化的な代替品が有利であるという状況に光を当てるために詳細な分析を行っていない。これらの研究のほとんどは、単一のタイプの問題に焦点を当てている。対照的に、この研究は、ユニモーダルからマルチモーダル、および偽りの関数まで、異なる性質の5つの関数の使用を探求する。 MCTS UCTの進化は, マルチモーダル, 偽りのシナリオにおいて, MCTS UCTの利点を生み出すのに対して, MCTS UCTは, 本研究で使用されるすべての機能において堅牢であることを示す。

関連論文リスト

DICE: Dynamic In-Context Example Selection in LLM Agents via Efficient Knowledge Transfer [50.64531021352504]
インコンテキスト学習(ICL)によって強化された大規模言語モデルベースエージェントは、複雑な推論やツール使用タスクにおいて強力な能力を示している。既存のアプローチは典型的には、エージェントやマルチステップの設定を含むサンプルの選択に依存している。推論の各ステップにおいて最も関連性の高い実演を選択できるエージェントタスクのための理論的に基礎付けられた ICL フレームワーク DICE を提案する。
論文参考訳（メタデータ） (2025-07-31T13:42:14Z)
Monte Carlo Tree Diffusion for System 2 Planning [57.50512800900167]
モンテカルロ木探索(MCTS)の適応探索機能と拡散モデルの生成強度を統合する新しいフレームワークであるモンテカルロ木拡散(MCTD)を紹介する。 MCTDは拡散フレームワーク内での探索・探索トレードオフの制御などのMCTSの利点を享受する。
論文参考訳（メタデータ） (2025-02-11T02:51:42Z)
CoPS: Empowering LLM Agents with Provable Cross-Task Experience Sharing [70.25689961697523]
クロスタスク体験の共有と選択によるシーケンシャル推論を強化する一般化可能なアルゴリズムを提案する。我々の研究は、既存のシーケンシャルな推論パラダイムのギャップを埋め、タスク間体験の活用の有効性を検証する。
論文参考訳（メタデータ） (2024-10-22T03:59:53Z)
Optimized Monte Carlo Tree Search for Enhanced Decision Making in the FrozenLake Environment [0.0]
Monte Carlo Tree Search (MCTS) は複雑な意思決定問題を解決する強力なアルゴリズムである。本稿では,古典的強化学習課題であるFrozenLake環境に適用したMCTS実装を提案する。
論文参考訳（メタデータ） (2024-09-25T05:04:53Z)
Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。 DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文参考訳（メタデータ） (2024-07-03T15:01:18Z)
Combinatorial Multivariant Multi-Armed Bandits with Applications to Episodic Reinforcement Learning and Beyond [58.39457881271146]
CMAB(Multi-armed bandits)の多変量および確率的トリガーアーム(CMAB-MT)を用いた新しい枠組みを導入する。 CMAB-MTは既存のCMABと比べ、モデリング能力を高めるだけでなく、多変量確率変数の異なる統計特性を活用することで結果を改善することができる。本フレームワークは, エピソード強化学習(RL)や商品分布の確率的最大カバレッジなど, 応用として多くの重要な問題を含むことができる。
論文参考訳（メタデータ） (2024-06-03T14:48:53Z)
UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [75.11267478778295]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。重みベクトル w でパラメータ化される線型効用関数の場合に焦点を当てる。学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-01T09:34:42Z)
Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis [70.78170766633039]
我々は、MTS予測提案を確実かつ公平に評価する手段の必要性に対処する。 BasicTS+は、MTS予測ソリューションの公平で包括的で再現可能な比較を可能にするために設計されたベンチマークである。リッチデータセットとともにBasicTS+を適用し,45 MTS以上の予測ソリューションの性能を評価する。
論文参考訳（メタデータ） (2023-10-09T19:52:22Z)
Towards Understanding the Effects of Evolving the MCTS UCT Selection Policy [0.0]
樹上信頼境界 (UCT) はモンテカルロ木探索 (MCTS) で広く使われている。我々は,UDTの進化がマルチモーダルおよび偽装シナリオにおいてどのように有用かを示す。
論文参考訳（メタデータ） (2023-02-07T09:50:55Z)
Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文参考訳（メタデータ） (2023-02-02T07:51:19Z)
Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。 CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文参考訳（メタデータ） (2022-10-04T07:34:06Z)
Evolving the MCTS Upper Confidence Bounds for Trees Using a Semantic-inspired Evolutionary Algorithm in the Game of Carcassonne [0.0]
我々はモンテカルロ木探索(MCTS)におけるセマンティック・インスパイアされた進化的アルゴリズムを提案する。我々は進化的アルゴリズム(EA)を用いて、木式に上信頼境界を置き換えることを目的として数学的表現を進化させる。 SIEA-MCTSは、これらの進化した表現をチューニングすることなく、UTTよりも優れた、あるいは競争的な結果をもたらす数学的表現をうまく進化させることができるかを示す。
論文参考訳（メタデータ） (2022-08-29T13:31:06Z)
On the Evolution of the MCTS Upper Confidence Bounds for Trees by Means of Evolutionary Algorithms in the Game of Carcassonne [0.0]
Monte Carlo Tree Search (MCTS) は最適な決定を探索するためのサンプリング最優先の手法である。我々は、進化的アルゴリズム(EA)を用いて、木上の信頼境界(UCT)の数学的表現に代えて、数学的表現を進化させる。 ES-MCTSコントローラは、堅牢なUCTコントローラを含む、これらの10個のインテリジェントコントローラよりも優れていることを示す。
論文参考訳（メタデータ） (2021-12-17T18:06:21Z)
Monte Carlo Tree Search: A Review of Recent Modifications and Applications [0.17205106391379024]
モンテカルロツリー検索(MCTS)は、ゲームプレイボットを設計したり、連続的な決定問題を解決するための強力なアプローチです。この方法は、探索と搾取のバランスをとるインテリジェントな木探索に依存している。しかし、この方法はより複雑なゲームでは最先端の技術となっている。
論文参考訳（メタデータ） (2021-03-08T17:44:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。