論文の概要: Generalized Optimality Guarantees for Solving Continuous Observation
POMDPs through Particle Belief MDP Approximation
- arxiv url: http://arxiv.org/abs/2210.05015v1
- Date: Mon, 10 Oct 2022 21:11:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:54:57.562578
- Title: Generalized Optimality Guarantees for Solving Continuous Observation
POMDPs through Particle Belief MDP Approximation
- Title(参考訳): パーティクルブリーフMDP近似による連続観測PMDPの一般化最適保証
- Authors: Michael H. Lim, Tyler J. Becker, Mykel J. Kochenderfer, Claire J.
Tomlin, Zachary N. Sunberg
- Abstract要約: 我々は,PMDP/信頼性MPPの有限サンプル粒子信念における最適性保証は,元のPMDPにおいても最適性保証が得られることを示す。
我々は, PB-MDP近似を用いた単純なMDPアルゴリズムであるSparse-PFTを用いて, ベンチマークPOMDPの5つの数値実験を行った。
- 参考スコア(独自算出の注目度): 60.184521257877606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially observable Markov decision processes (POMDPs) provide a flexible
representation for real-world decision and control problems. However, POMDPs
are notoriously difficult to solve, especially when the state and observation
spaces are continuous or hybrid, which is often the case for physical systems.
While recent online sampling-based POMDP algorithms that plan with observation
likelihood weighting have shown practical effectiveness, a general theory
bounding the approximation error of the particle filtering techniques that
these algorithms use has not previously been proposed. Our main contribution is
to formally justify that optimality guarantees in a finite sample particle
belief MDP (PB-MDP) approximation of a POMDP/belief MDP yields optimality
guarantees in the original POMDP as well. This fundamental bridge between
PB-MDPs and POMDPs allows us to adapt any sampling-based MDP algorithm of
choice to a POMDP by solving the corresponding particle belief MDP
approximation and preserve the convergence guarantees in the POMDP.
Practically, this means additionally assuming access to the observation density
model, and simply swapping out the state transition generative model with a
particle filtering-based model, which only increases the computational
complexity by a factor of $\mathcal{O}(C)$, with $C$ the number of particles in
a particle belief state. In addition to our theoretical contribution, we
perform five numerical experiments on benchmark POMDPs to demonstrate that a
simple MDP algorithm adapted using PB-MDP approximation, Sparse-PFT, achieves
performance competitive with other leading continuous observation POMDP
solvers.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
しかし、POMDPは、特に状態空間と観測空間が連続的またはハイブリッドである場合、特に物理的システムでは解決が困難である。
近年のオンラインサンプリングベースのpomdpアルゴリズムは, 観測可能性の重み付けにより実用的効果を示しているが, これらのアルゴリズムが用いる粒子フィルタリング手法の近似誤差を限定した一般理論は提案されていない。
我々の主な貢献は、有限サンプル粒子信念MDP(PB-MDP)近似における最適性が元のPOMDPの最適性を保証することを正式に正当化することである。
PB-MDP と POMDP の基本的なブリッジは、対応する粒子信念 MDP 近似を解き、POMDP の収束保証を保ち、サンプリングに基づく任意の MDP アルゴリズムを POMDP に適用することができる。
実際にこれは、観測密度モデルへのアクセスを仮定し、単に状態遷移生成モデルを粒子フィルタリングモデルに置き換えるだけで、計算複雑性は$\mathcal{O}(C)$で$C$の粒子の数は$C$になる。
pb-mdp近似を用いた単純なmdpアルゴリズムであるsparse-pftが,他の有望な連続観測型pomdpソルバと性能的に競合することを実証するために,ベンチマーク pomdp における5つの数値実験を行った。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Stochastic Gradient Piecewise Deterministic Monte Carlo Samplers [3.487370856323828]
近年の研究では、モンテカルロ法を用いて、目的とする関心の分布から標本を抽出することを提案している。
後方分布からのスケーラブルサンプリングのためのサブサンプリングによるPDMPの近似シミュレーションを提案する。
これらの手法は実装が容易であることが示され、近似誤差の結果を示し、このアルゴリズムのクラスが勾配ランゲヴィン力学と類似の効率を持つことを示す。
論文 参考訳(メタデータ) (2024-06-27T09:59:28Z) - Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Towards Instance-Optimality in Online PAC Reinforcement Learning [28.156332484814616]
そこで本研究では,PACの同定に要するサンプルの複雑さに対する最初のインスタンス依存下限について提案する。
我々は、citeWagenmaker22linearMDPのPEDELアルゴリズムのサンプル複雑さがこの下界に近づいたことを実証する。
論文 参考訳(メタデータ) (2023-10-31T19:26:36Z) - Monte Carlo Neural PDE Solver for Learning PDEs via Probabilistic Representation [59.45669299295436]
教師なしニューラルソルバのトレーニングのためのモンテカルロPDEソルバを提案する。
我々は、マクロ現象をランダム粒子のアンサンブルとみなすPDEの確率的表現を用いる。
対流拡散, アレン・カーン, ナヴィエ・ストークス方程式に関する実験により, 精度と効率が著しく向上した。
論文 参考訳(メタデータ) (2023-02-10T08:05:19Z) - Linear programming-based solution methods for constrained POMDPs [0.5156484100374059]
制約付き部分観測可能なマルコフ決定過程(CPOMDP)は、様々な実世界の現象をモデル化するために用いられている。
我々は、CPOMDPの近似ポリシーを生成するために、グリッドベースの近似と線形プログラミング(LP)モデルを組み合わせる。
論文 参考訳(メタデータ) (2022-06-28T15:22:24Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - A Relation Analysis of Markov Decision Process Frameworks [26.308541799686505]
機械学習における異なる決定プロセス(MDP)フレームワークと計量経済学文献との関係について検討する。
エントロピー正規化 MDP は MDP モデルと同値であり,一般正規化 MDP により厳密に仮定されることを示す。
論文 参考訳(メタデータ) (2020-08-18T09:27:26Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。