論文の概要: Bayesian Optimized Monte Carlo Planning
- arxiv url: http://arxiv.org/abs/2010.03597v1
- Date: Wed, 7 Oct 2020 18:29:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:28:05.325021
- Title: Bayesian Optimized Monte Carlo Planning
- Title(参考訳): ベイジアン最適化モンテカルロ計画
- Authors: John Mern, Anil Yildiz, Zachary Sunberg, Tapan Mukerji, Mykel J.
Kochenderfer
- Abstract要約: モンテカルロ木探索は、行動空間からサンプリングし、ポリシー探索木を構築することにより、拡張性の向上を試みる。
ベイズ最適化に基づく効率的な行動サンプリング法を提案する。
提案手法はBayesian Optimized Monte Carlo Planningと呼ばれる新しいオンライン木探索アルゴリズムに実装されている。
- 参考スコア(独自算出の注目度): 34.8909579244631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online solvers for partially observable Markov decision processes have
difficulty scaling to problems with large action spaces. Monte Carlo tree
search with progressive widening attempts to improve scaling by sampling from
the action space to construct a policy search tree. The performance of
progressive widening search is dependent upon the action sampling policy, often
requiring problem-specific samplers. In this work, we present a general method
for efficient action sampling based on Bayesian optimization. The proposed
method uses a Gaussian process to model a belief over the action-value function
and selects the action that will maximize the expected improvement in the
optimal action value. We implement the proposed approach in a new online tree
search algorithm called Bayesian Optimized Monte Carlo Planning (BOMCP).
Several experiments show that BOMCP is better able to scale to large action
space POMDPs than existing state-of-the-art tree search solvers.
- Abstract(参考訳): 部分可観測マルコフ決定プロセスのためのオンラインソルバは、大きなアクションスペースを持つ問題へのスケーリングが困難である。
プログレッシブ拡張によるモンテカルロ木探索は、ポリシー探索木を構築するためにアクション空間からサンプリングすることでスケーリングを改善することを試みる。
プログレッシブ・ワイドニング・サーチの性能はアクション・サンプリング・ポリシーに依存しており、しばしば問題固有のサンプリングが必要である。
本研究では,ベイズ最適化に基づく効率的な行動サンプリング手法を提案する。
提案手法はガウス過程を用いて行動-値関数上の信念をモデル化し、最適動作値の期待改善を最大化する動作を選択する。
提案手法はBayesian Optimized Monte Carlo Planning (BOMCP)と呼ばれる新しいオンライン木探索アルゴリズムで実装されている。
複数の実験により、bomcpは既存の最先端木探索ソルバよりも大きなアクション空間 pomdp にスケールできることが示された。
関連論文リスト
- Poisson Process for Bayesian Optimization [126.51200593377739]
本稿では、Poissonプロセスに基づくランキングベースの代理モデルを提案し、Poisson Process Bayesian Optimization(PoPBO)と呼ばれる効率的なBOフレームワークを提案する。
従来のGP-BO法と比較すると,PoPBOはコストが低く,騒音に対する堅牢性も良好であり,十分な実験により検証できる。
論文 参考訳(メタデータ) (2024-02-05T02:54:50Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Adaptive Discretization using Voronoi Trees for Continuous POMDPs [7.713622698801596]
我々は,Voronoi Trees (ADVT) を用いた適応離散化(Adaptive Discretization)と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
モンテカルロ木探索と、作用空間の適応的な離散化と、楽観的な最適化を組み合わせて、高次元連続作用空間を効率的にサンプリングする。
ADVTは、最先端の手法と比較して、高次元の連続的な作用空間よりもかなり良くスケールする。
論文 参考訳(メタデータ) (2023-02-21T04:47:34Z) - Monte Carlo Tree Descent for Black-Box Optimization [10.698553177585973]
我々は、より高速な最適化のためにサンプルベース降下をさらに統合する方法を研究する。
我々は,モンテカルロ探索木の拡張手法を,頂点における新しい降下法を用いて設計する。
提案アルゴリズムは,多くの挑戦的ベンチマーク問題において,最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-01T22:45:10Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Adaptive Discretization using Voronoi Trees for Continuous-Action POMDPs [7.713622698801596]
我々は,Voronoi Trees (ADVT) を用いた適応離散化(Adaptive Discretization)と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
ADVTはモンテカルロ木探索とアクション空間の適応的な離散化と楽観的な最適化を併用する。
4種類のベンチマーク問題のシミュレーション実験により、ADVTは高次元連続行動空間よりも優れ、スケールがかなり優れていることが示されている。
論文 参考訳(メタデータ) (2022-09-13T05:04:49Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Improved POMDP Tree Search Planning with Prioritized Action Branching [33.94599291823342]
本稿では,PA-POMCPOWとよばれる手法を提案する。
実験により、PA-POMCPOWは、大きな離散的な作用空間を持つ問題において、既存の最先端の解法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-07T18:33:57Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z) - Model-Predictive Control via Cross-Entropy and Gradient-Based
Optimization [26.497575737219794]
クロスエントロピー法(クロスエントロピーほう、CEM)は、集団に基づく一連の行動計画の最適化手法である。
そこで本研究では,CEMと勾配降下ステップをインターリーブして動作シーケンスを最適化することで,この問題を解決する手法を提案する。
本実験は, 高次元の作用空間においても, 提案したハイブリッドアプローチのより高速な収束性を示す。
論文 参考訳(メタデータ) (2020-04-19T03:54:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。