論文の概要: Gaussian Process Aggregation for Root-Parallel Monte Carlo Tree Search with Continuous Actions
- arxiv url: http://arxiv.org/abs/2512.09727v1
- Date: Wed, 10 Dec 2025 15:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.567775
- Title: Gaussian Process Aggregation for Root-Parallel Monte Carlo Tree Search with Continuous Actions
- Title(参考訳): 連続行動を用いたルートパラレルモンテカルロ木探索のためのガウス過程の集約
- Authors: Junlin Xiao, Victor-Alexandru Darvariu, Bruno Lacerda, Nick Hawes,
- Abstract要約: 本稿では,ガウス過程回帰を用いて,環境下で試行されていない有望な行動に対する評価値を求める手法を提案する。
我々は6つの異なる領域にまたがって体系的な評価を行い、アプローチが既存のアグリゲーション戦略より優れていることを示す。
- 参考スコア(独自算出の注目度): 17.674265727888063
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monte Carlo Tree Search is a cornerstone algorithm for online planning, and its root-parallel variant is widely used when wall clock time is limited but best performance is desired. In environments with continuous action spaces, how to best aggregate statistics from different threads is an important yet underexplored question. In this work, we introduce a method that uses Gaussian Process Regression to obtain value estimates for promising actions that were not trialed in the environment. We perform a systematic evaluation across 6 different domains, demonstrating that our approach outperforms existing aggregation strategies while requiring a modest increase in inference time.
- Abstract(参考訳): Monte Carlo Tree Searchは、オンラインプランニングの基盤となるアルゴリズムであり、壁時計時間に制限があるが、最高のパフォーマンスが望まれるときには、そのルート並列のバリエーションが広く使われている。
連続的な行動空間を持つ環境では、異なるスレッドから統計を最も多く収集する方法が重要だが、未解明の課題である。
本研究では,ガウス過程回帰を用いて,環境下で試行されていない有望な行動に対する評価値を求める手法を提案する。
我々は6つの異なる領域にまたがって体系的な評価を行い、提案手法は推論時間を緩やかに増加させながら既存の集約戦略より優れていることを示した。
関連論文リスト
- Action-Gradient Monte Carlo Tree Search for Non-Parametric Continuous (PO)MDPs [7.170248667518935]
Action-Gradient Monte Carlo Tree Search (AGMCTS)は、非パラメトリック粒子探索とPOMDPのオンライン勾配改善をブレンドする最初のプランナーである。
AGMCTSは、広く使われているサンプルのみの解法よりも、ソリューションの品質が優れている。
論文 参考訳(メタデータ) (2025-03-15T15:51:06Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - SPO: Sequential Monte Carlo Policy Optimisation [41.52684912140086]
SPO:Sequential Monte Carlo Policy optimizationを紹介する。
我々は,SPOがロバストな政策改善と効率的なスケーリング特性を提供することを示した。
モデルフリーおよびモデルベースラインと比較して,統計的に有意な性能向上を示す。
論文 参考訳(メタデータ) (2024-02-12T10:32:47Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Fast and robust Bayesian Inference using Gaussian Processes with GPry [0.0]
一般(非ガウス)後方の素早いベイズ推定のためのGPryアルゴリズムを適度なパラメータ数で提案する。
GPryはGPUのようなトレーニング済みの特別なハードウェアを一切必要とせず、ベイジアン推論のためのモンテカルロ法をドロップインで置き換えることを意図している。
論文 参考訳(メタデータ) (2022-11-03T17:57:45Z) - Monte Carlo Tree Descent for Black-Box Optimization [10.698553177585973]
我々は、より高速な最適化のためにサンプルベース降下をさらに統合する方法を研究する。
我々は,モンテカルロ探索木の拡張手法を,頂点における新しい降下法を用いて設計する。
提案アルゴリズムは,多くの挑戦的ベンチマーク問題において,最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-01T22:45:10Z) - Continuous Monte Carlo Graph Search [61.11769232283621]
連続モンテカルログラフサーチ(Continuous Monte Carlo Graph Search, CMCGS)は、モンテカルログラフサーチ(MCTS)のオンラインプランニングへの拡張である。
CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。
並列化によってスケールアップすることができ、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。
論文 参考訳(メタデータ) (2022-10-04T07:34:06Z) - Cluster-and-Conquer: A Framework For Time-Series Forecasting [94.63501563413725]
本稿では,高次元時系列データを予測するための3段階フレームワークを提案する。
当社のフレームワークは非常に汎用的で,各ステップで時系列予測やクラスタリングが利用可能です。
単純な線形自己回帰モデルでインスタンス化されると、いくつかのベンチマークデータセットで最先端の結果が得られる。
論文 参考訳(メタデータ) (2021-10-26T20:41:19Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Bayesian Optimized Monte Carlo Planning [34.8909579244631]
モンテカルロ木探索は、行動空間からサンプリングし、ポリシー探索木を構築することにより、拡張性の向上を試みる。
ベイズ最適化に基づく効率的な行動サンプリング法を提案する。
提案手法はBayesian Optimized Monte Carlo Planningと呼ばれる新しいオンライン木探索アルゴリズムに実装されている。
論文 参考訳(メタデータ) (2020-10-07T18:29:27Z) - Time-varying Gaussian Process Bandit Optimization with Non-constant
Evaluation Time [93.6788993843846]
非定常評価時間を効果的に処理できる新しい時間変化ベイズ最適化アルゴリズムを提案する。
我々の限界は、評価時間列のパターンが問題の難易度に大きな影響を与えることを決定づける。
論文 参考訳(メタデータ) (2020-03-10T13:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。