論文の概要: Adaptive Discretization using Voronoi Trees for Continuous POMDPs
- arxiv url: http://arxiv.org/abs/2302.10439v1
- Date: Tue, 21 Feb 2023 04:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 16:26:14.163553
- Title: Adaptive Discretization using Voronoi Trees for Continuous POMDPs
- Title(参考訳): 連続pomdpに対するボロノイ木を用いた適応的離散化
- Authors: Marcus Hoerger, Hanna Kurniawati, Dirk Kroese, Nan Ye
- Abstract要約: 我々は,Voronoi Trees (ADVT) を用いた適応離散化(Adaptive Discretization)と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
モンテカルロ木探索と、作用空間の適応的な離散化と、楽観的な最適化を組み合わせて、高次元連続作用空間を効率的にサンプリングする。
ADVTは、最先端の手法と比較して、高次元の連続的な作用空間よりもかなり良くスケールする。
- 参考スコア(独自算出の注目度): 7.713622698801596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving continuous Partially Observable Markov Decision Processes (POMDPs) is
challenging, particularly for high-dimensional continuous action spaces. To
alleviate this difficulty, we propose a new sampling-based online POMDP solver,
called Adaptive Discretization using Voronoi Trees (ADVT). It uses Monte Carlo
Tree Search in combination with an adaptive discretization of the action space
as well as optimistic optimization to efficiently sample high-dimensional
continuous action spaces and compute the best action to perform. Specifically,
we adaptively discretize the action space for each sampled belief using a
hierarchical partition called Voronoi tree, which is a Binary Space
Partitioning that implicitly maintains the partition of a cell as the Voronoi
diagram of two points sampled from the cell. ADVT uses the estimated diameters
of the cells to form an upper-confidence bound on the action value function
within the cell, guiding the Monte Carlo Tree Search expansion and further
discretization of the action space. This enables ADVT to better exploit local
information with respect to the action value function, allowing faster
identification of the most promising regions in the action space, compared to
existing solvers. Voronoi trees keep the cost of partitioning and estimating
the diameter of each cell low, even in high-dimensional spaces where many
sampled points are required to cover the space well. ADVT additionally handles
continuous observation spaces, by adopting an observation progressive widening
strategy, along with a weighted particle representation of beliefs.
Experimental results indicate that ADVT scales substantially better to
high-dimensional continuous action spaces, compared to state-of-the-art
methods.
- Abstract(参考訳): 連続的部分可観測マルコフ決定過程(pomdps)の解決は、特に高次元連続作用空間において困難である。
この問題を緩和するために,Voronoi Trees (ADVT) を用いた適応離散化法 (Adaptive Discretization) と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
モンテカルロ木探索と適応的離散化を併用し、楽観的な最適化を行い、高次元連続的な作用空間を効率的にサンプリングし、最適な作用を計算する。
具体的には,セルからサンプリングされた2点のボロノイ図としてセルの分割を暗黙的に維持する二元空間分割であるボロノイ木(voronoi tree)と呼ばれる階層的分割を用いて,各サンプル信念に対するアクション空間を適応的に判別する。
ADVTは、推定されたセルの直径を用いて、セル内の作用値関数に束縛された上部信頼を形成し、モンテカルロ木探索を誘導し、さらに作用空間の離散化を行う。
これにより、ADVTはアクション値関数に関するローカル情報をよりうまく活用することができ、既存の解法と比較してアクション空間で最も有望な領域を素早く識別することができる。
ボロノイの木は、空間をよく覆うために多くのサンプル点が必要となる高次元空間においても、各セルの直径を分割して見積もるコストを保っている。
ADVTは、観察の進行的拡大戦略と、信念の重み付けされた粒子表現を採用することで、連続的な観測空間も扱う。
実験結果から,ADVTは最先端の手法に比べて高次元連続的な動作空間よりも大幅にスケールすることがわかった。
関連論文リスト
- Breaking Determinism: Fuzzy Modeling of Sequential Recommendation Using Discrete State Space Diffusion Model [66.91323540178739]
シークエンシャルレコメンデーション(SR)は、ユーザーが過去の行動に基づいて興味を持つかもしれない項目を予測することを目的としている。
我々はSRを新しい情報理論の観点から再検討し、逐次モデリング手法がユーザの行動のランダム性と予測不可能性を適切に把握できないことを発見した。
ファジィ情報処理理論に触発された本論文では,制限を克服し,ユーザの関心事の進化をよりよく捉えるために,ファジィなインタラクションシーケンスの組を導入する。
論文 参考訳(メタデータ) (2024-10-31T14:52:01Z) - Sample-and-Bound for Non-Convex Optimization [18.30858789210194]
我々はモンテカルロのベンチマークに適応して効率を向上する非次元目的最適化のための新しいサンプリング手法を提案する。
提案する高次ベースラインおよび競合ベンチマークアルゴリズムを積極的に評価する。
論文 参考訳(メタデータ) (2024-01-09T20:45:47Z) - Optimal Scaling for Locally Balanced Proposals in Discrete Spaces [65.14092237705476]
離散空間におけるMetropolis-Hastings (M-H) アルゴリズムの効率は、対象分布に依存しない受容率によって特徴づけられることを示す。
最適受容率の知識は、連続空間におけるステップサイズ制御と直接的に類似して、離散空間における提案分布の近傍サイズを自動的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-09-16T22:09:53Z) - Adaptive Discretization using Voronoi Trees for Continuous-Action POMDPs [7.713622698801596]
我々は,Voronoi Trees (ADVT) を用いた適応離散化(Adaptive Discretization)と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
ADVTはモンテカルロ木探索とアクション空間の適応的な離散化と楽観的な最適化を併用する。
4種類のベンチマーク問題のシミュレーション実験により、ADVTは高次元連続行動空間よりも優れ、スケールがかなり優れていることが示されている。
論文 参考訳(メタデータ) (2022-09-13T05:04:49Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - Dream and Search to Control: Latent Space Planning for Continuous
Control [24.991127785736364]
本稿では, 離散空間におけるブートストラップの利点のタイプを示すことができることを示す。
特に、このアプローチは、挑戦的な継続的制御ベンチマークの大部分において、サンプル効率とパフォーマンスの改善を実現している。
論文 参考訳(メタデータ) (2020-10-19T20:10:51Z) - Improved POMDP Tree Search Planning with Prioritized Action Branching [33.94599291823342]
本稿では,PA-POMCPOWとよばれる手法を提案する。
実験により、PA-POMCPOWは、大きな離散的な作用空間を持つ問題において、既存の最先端の解法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-07T18:33:57Z) - Bayesian Optimized Monte Carlo Planning [34.8909579244631]
モンテカルロ木探索は、行動空間からサンプリングし、ポリシー探索木を構築することにより、拡張性の向上を試みる。
ベイズ最適化に基づく効率的な行動サンプリング法を提案する。
提案手法はBayesian Optimized Monte Carlo Planningと呼ばれる新しいオンライン木探索アルゴリズムに実装されている。
論文 参考訳(メタデータ) (2020-10-07T18:29:27Z) - Joint and Progressive Subspace Analysis (JPSA) with Spatial-Spectral
Manifold Alignment for Semi-Supervised Hyperspectral Dimensionality Reduction [48.73525876467408]
本稿では,超スペクトル部分空間解析のための新しい手法を提案する。
この手法はジョイント・アンド・プログレッシブ・サブスペース分析(JPSA)と呼ばれる。
2つの広帯域超スペクトルデータセットに対して提案したJPSAの優位性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-09-21T16:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。