論文の概要: Optimality Guarantees for Particle Belief Approximation of POMDPs
- arxiv url: http://arxiv.org/abs/2210.05015v3
- Date: Mon, 5 Jun 2023 05:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 04:22:40.796188
- Title: Optimality Guarantees for Particle Belief Approximation of POMDPs
- Title(参考訳): POMDPの粒子信念近似のための最適保証
- Authors: Michael H. Lim, Tyler J. Becker, Mykel J. Kochenderfer, Claire J.
Tomlin, Zachary N. Sunberg
- Abstract要約: 部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
- 参考スコア(独自算出の注目度): 60.184521257877606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially observable Markov decision processes (POMDPs) provide a flexible
representation for real-world decision and control problems. However, POMDPs
are notoriously difficult to solve, especially when the state and observation
spaces are continuous or hybrid, which is often the case for physical systems.
While recent online sampling-based POMDP algorithms that plan with observation
likelihood weighting have shown practical effectiveness, a general theory
characterizing the approximation error of the particle filtering techniques
that these algorithms use has not previously been proposed. Our main
contribution is bounding the error between any POMDP and its corresponding
finite sample particle belief MDP (PB-MDP) approximation. This fundamental
bridge between PB-MDPs and POMDPs allows us to adapt any sampling-based MDP
algorithm to a POMDP by solving the corresponding particle belief MDP, thereby
extending the convergence guarantees of the MDP algorithm to the POMDP.
Practically, this is implemented by using the particle filter belief transition
model as the generative model for the MDP solver. While this requires access to
the observation density model from the POMDP, it only increases the transition
sampling complexity of the MDP solver by a factor of $\mathcal{O}(C)$, where
$C$ is the number of particles. Thus, when combined with sparse sampling MDP
algorithms, this approach can yield algorithms for POMDPs that have no direct
theoretical dependence on the size of the state and observation spaces. In
addition to our theoretical contribution, we perform five numerical experiments
on benchmark POMDPs to demonstrate that a simple MDP algorithm adapted using
PB-MDP approximation, Sparse-PFT, achieves performance competitive with other
leading continuous observation POMDP solvers.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
我々の主な貢献は、任意のPOMDPとその対応する有限サンプル粒子信念 MDP (PB-MDP) 近似の誤差の境界である。
PB-MDP と POMDP の基本的なブリッジにより,対応する粒子信念 MDP を解くことで,サンプリングベースの MDP アルゴリズムを POMDP に適用し,MDP アルゴリズムの収束保証を POMDP に拡張することができる。
実際に, MDPソルバの生成モデルとして, 粒子フィルタの信念遷移モデルを用いてこれを実装した。
これは pomdp からの観測密度モデルへのアクセスを必要とするが、mdp ソルバの遷移サンプリング複雑性を $\mathcal{o}(c)$ で増加させるだけであり、ここで $c$ は粒子の数である。
pb-mdp近似を用いた単純なmdpアルゴリズムであるsparse-pftが,他の有望な連続観測型pomdpソルバと性能的に競合することを実証するために,ベンチマーク pomdp における5つの数値実験を行った。
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Stochastic Gradient Piecewise Deterministic Monte Carlo Samplers [3.487370856323828]
論文 参考訳(メタデータ) (2024-06-27T09:59:28Z) - Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Towards Instance-Optimality in Online PAC Reinforcement Learning [28.156332484814616]
論文 参考訳(メタデータ) (2023-10-31T19:26:36Z) - Monte Carlo Neural PDE Solver for Learning PDEs via Probabilistic Representation [59.45669299295436]
対流拡散, アレン・カーン, ナヴィエ・ストークス方程式に関する実験により, 精度と効率が著しく向上した。
論文 参考訳(メタデータ) (2023-02-10T08:05:19Z) - Linear programming-based solution methods for constrained POMDPs [0.5156484100374059]
論文 参考訳(メタデータ) (2022-06-28T15:22:24Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - A Relation Analysis of Markov Decision Process Frameworks [26.308541799686505]
エントロピー正規化 MDP は MDP モデルと同値であり,一般正規化 MDP により厳密に仮定されることを示す。
論文 参考訳(メタデータ) (2020-08-18T09:27:26Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z)