論文の概要: Gaussian Process Aggregation for Root-Parallel Monte Carlo Tree Search with Continuous Actions
- arxiv url: http://arxiv.org/abs/2512.09727v1
- Date: Wed, 10 Dec 2025 15:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.567775
- Title: Gaussian Process Aggregation for Root-Parallel Monte Carlo Tree Search with Continuous Actions
- Title(参考訳): 連続行動を用いたルートパラレルモンテカルロ木探索のためのガウス過程の集約
- Authors: Junlin Xiao, Victor-Alexandru Darvariu, Bruno Lacerda, Nick Hawes,
- Abstract要約: 本稿では,ガウス過程回帰を用いて,環境下で試行されていない有望な行動に対する評価値を求める手法を提案する。
我々は6つの異なる領域にまたがって体系的な評価を行い、アプローチが既存のアグリゲーション戦略より優れていることを示す。
- 参考スコア(独自算出の注目度): 17.674265727888063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monte Carlo Tree Search is a cornerstone algorithm for online planning, and its root-parallel variant is widely used when wall clock time is limited but best performance is desired. In environments with continuous action spaces, how to best aggregate statistics from different threads is an important yet underexplored question. In this work, we introduce a method that uses Gaussian Process Regression to obtain value estimates for promising actions that were not trialed in the environment. We perform a systematic evaluation across 6 different domains, demonstrating that our approach outperforms existing aggregation strategies while requiring a modest increase in inference time.
- Abstract(参考訳): Monte Carlo Tree Searchは、オンラインプランニングの基盤となるアルゴリズムであり、壁時計時間に制限があるが、最高のパフォーマンスが望まれるときには、そのルート並列のバリエーションが広く使われている。
連続的な行動空間を持つ環境では、異なるスレッドから統計を最も多く収集する方法が重要だが、未解明の課題である。
本研究では,ガウス過程回帰を用いて,環境下で試行されていない有望な行動に対する評価値を求める手法を提案する。
我々は6つの異なる領域にまたがって体系的な評価を行い、提案手法は推論時間を緩やかに増加させながら既存の集約戦略より優れていることを示した。
関連論文リスト
- Action-Gradient Monte Carlo Tree Search for Non-Parametric Continuous (PO)MDPs [7.170248667518935]
Action-Gradient Monte Carlo Tree Search (AGMCTS)は、非パラメトリック粒子探索とPOMDPのオンライン勾配改善をブレンドする最初のプランナーである。
AGMCTSは、広く使われているサンプルのみの解法よりも、ソリューションの品質が優れている。
論文 参考訳(メタデータ) (2025-03-15T15:51:06Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Bayesian Optimized Monte Carlo Planning [34.8909579244631]
モンテカルロ木探索は、行動空間からサンプリングし、ポリシー探索木を構築することにより、拡張性の向上を試みる。
ベイズ最適化に基づく効率的な行動サンプリング法を提案する。
提案手法はBayesian Optimized Monte Carlo Planningと呼ばれる新しいオンライン木探索アルゴリズムに実装されている。
論文 参考訳(メタデータ) (2020-10-07T18:29:27Z) - Time-varying Gaussian Process Bandit Optimization with Non-constant
Evaluation Time [93.6788993843846]
非定常評価時間を効果的に処理できる新しい時間変化ベイズ最適化アルゴリズムを提案する。
我々の限界は、評価時間列のパターンが問題の難易度に大きな影響を与えることを決定づける。
論文 参考訳(メタデータ) (2020-03-10T13:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。