論文の概要: Adaptive Discretization using Voronoi Trees for Continuous-Action POMDPs
- arxiv url: http://arxiv.org/abs/2209.05733v1
- Date: Tue, 13 Sep 2022 05:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 13:02:36.554778
- Title: Adaptive Discretization using Voronoi Trees for Continuous-Action POMDPs
- Title(参考訳): 連続動作pomdpに対するボロノイ木を用いた適応的離散化
- Authors: Marcus Hoerger, Hanna Kurniawati, Dirk Kroese, Nan Ye
- Abstract要約: 我々は,Voronoi Trees (ADVT) を用いた適応離散化(Adaptive Discretization)と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
ADVTはモンテカルロ木探索とアクション空間の適応的な離散化と楽観的な最適化を併用する。
4種類のベンチマーク問題のシミュレーション実験により、ADVTは高次元連続行動空間よりも優れ、スケールがかなり優れていることが示されている。
- 参考スコア(独自算出の注目度): 7.713622698801596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving Partially Observable Markov Decision Processes (POMDPs) with
continuous actions is challenging, particularly for high-dimensional action
spaces. To alleviate this difficulty, we propose a new sampling-based online
POMDP solver, called Adaptive Discretization using Voronoi Trees (ADVT). It
uses Monte Carlo Tree Search in combination with an adaptive discretization of
the action space as well as optimistic optimization to efficiently sample
high-dimensional continuous action spaces and compute the best action to
perform. Specifically, we adaptively discretize the action space for each
sampled belief using a hierarchical partition which we call a Voronoi tree. A
Voronoi tree is a Binary Space Partitioning (BSP) that implicitly maintains the
partition of a cell as the Voronoi diagram of two points sampled from the cell.
This partitioning strategy keeps the cost of partitioning and estimating the
size of each cell low, even in high-dimensional spaces where many sampled
points are required to cover the space well. ADVT uses the estimated sizes of
the cells to form an upper-confidence bound of the action values of the cell,
and in turn uses the upper-confidence bound to guide the Monte Carlo Tree
Search expansion and further discretization of the action space. This strategy
enables ADVT to better exploit local information in the action space, leading
to an action space discretization that is more adaptive, and hence more
efficient in computing good POMDP solutions, compared to existing solvers.
Experiments on simulations of four types of benchmark problems indicate that
ADVT outperforms and scales substantially better to high-dimensional continuous
action spaces, compared to state-of-the-art continuous action POMDP solvers.
- Abstract(参考訳): 連続的な作用を伴う部分観測可能なマルコフ決定過程(POMDP)の解法は特に高次元の作用空間において困難である。
この問題を緩和するために,Voronoi Trees (ADVT) を用いた適応離散化法 (Adaptive Discretization) と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
モンテカルロ木探索と適応的離散化を併用し、楽観的な最適化を行い、高次元連続的な作用空間を効率的にサンプリングし、最適な作用を計算する。
具体的には,voronoi木と呼ばれる階層分割を用いて,各サンプル信念に対する動作空間を適応的に判別する。
ボロノイ木(英: Voronoi tree)は、細胞からサンプリングされた2つの点のボロノイ図として、細胞の分割を暗黙的に維持する二分空間分割(BSP)である。
この分割戦略は、空間をうまくカバーするために多くのサンプル点が必要となる高次元空間においても、各セルのサイズを分割して見積もるコストを低く抑えている。
advtは、セルの大きさを推定して、セルの動作値の上信頼境界を形成し、その上信頼バウンドを使用してモンテカルロ木の探索展開を誘導し、さらに作用空間の離散化を行う。
この戦略により、ADVTはアクション空間のローカル情報をより活用し、より適応性が高く、従って既存の解法に比べて優れたPOMDPソリューションの計算に効率的であるアクション空間の離散化につながる。
4種類のベンチマーク問題のシミュレーション実験により、ADVTは最先端の連続アクションPOMDPソルバに比べて、高次元の連続アクション空間よりも優れ、スケールがかなり優れていることが示された。
関連論文リスト
- Breaking Determinism: Fuzzy Modeling of Sequential Recommendation Using Discrete State Space Diffusion Model [66.91323540178739]
シークエンシャルレコメンデーション(SR)は、ユーザーが過去の行動に基づいて興味を持つかもしれない項目を予測することを目的としている。
我々はSRを新しい情報理論の観点から再検討し、逐次モデリング手法がユーザの行動のランダム性と予測不可能性を適切に把握できないことを発見した。
ファジィ情報処理理論に触発された本論文では,制限を克服し,ユーザの関心事の進化をよりよく捉えるために,ファジィなインタラクションシーケンスの組を導入する。
論文 参考訳(メタデータ) (2024-10-31T14:52:01Z) - Sample-and-Bound for Non-Convex Optimization [18.30858789210194]
我々はモンテカルロのベンチマークに適応して効率を向上する非次元目的最適化のための新しいサンプリング手法を提案する。
提案する高次ベースラインおよび競合ベンチマークアルゴリズムを積極的に評価する。
論文 参考訳(メタデータ) (2024-01-09T20:45:47Z) - Tree-Planner: Efficient Close-loop Task Planning with Large Language Models [63.06270302774049]
Tree-Plannerは、大きな言語モデルでタスクプランニングを3つの異なるフェーズに再構成する。
Tree-Plannerは高い効率を維持しながら最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-12T17:59:50Z) - Adaptive Discretization using Voronoi Trees for Continuous POMDPs [7.713622698801596]
我々は,Voronoi Trees (ADVT) を用いた適応離散化(Adaptive Discretization)と呼ばれる新しいサンプリングベースのオンラインPOMDPソルバを提案する。
モンテカルロ木探索と、作用空間の適応的な離散化と、楽観的な最適化を組み合わせて、高次元連続作用空間を効率的にサンプリングする。
ADVTは、最先端の手法と比較して、高次元の連続的な作用空間よりもかなり良くスケールする。
論文 参考訳(メタデータ) (2023-02-21T04:47:34Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - Tree ensemble kernels for Bayesian optimization with known constraints
over mixed-feature spaces [54.58348769621782]
木アンサンブルはアルゴリズムチューニングやニューラルアーキテクチャ検索といったブラックボックス最適化タスクに適している。
ブラックボックス最適化にツリーアンサンブルを使うことの2つのよく知られた課題は、探索のためのモデル不確実性を効果的に定量化し、また、 (ii) ピースワイドな定値取得関数を最適化することである。
我々のフレームワークは、連続/離散的機能に対する非拘束ブラックボックス最適化のための最先端の手法と同様に、混合変数の特徴空間と既知の入力制約を組み合わせた問題の競合する手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-02T16:59:37Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - Improved POMDP Tree Search Planning with Prioritized Action Branching [33.94599291823342]
本稿では,PA-POMCPOWとよばれる手法を提案する。
実験により、PA-POMCPOWは、大きな離散的な作用空間を持つ問題において、既存の最先端の解法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-07T18:33:57Z) - Bayesian Optimized Monte Carlo Planning [34.8909579244631]
モンテカルロ木探索は、行動空間からサンプリングし、ポリシー探索木を構築することにより、拡張性の向上を試みる。
ベイズ最適化に基づく効率的な行動サンプリング法を提案する。
提案手法はBayesian Optimized Monte Carlo Planningと呼ばれる新しいオンライン木探索アルゴリズムに実装されている。
論文 参考訳(メタデータ) (2020-10-07T18:29:27Z) - Supervised Hyperalignment for multi-subject fMRI data alignment [81.8694682249097]
本稿では,MVP解析における機能的アライメントを改善するために,SHA(Supervised Hyperalignment)手法を提案する。
マルチオブジェクトデータセットの実験では、SHA法は最大19%の性能がマルチクラス問題に対して達成されている。
論文 参考訳(メタデータ) (2020-01-09T09:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。