論文の概要: Optimality Guarantees for Particle Belief Approximation of POMDPs
- arxiv url: http://arxiv.org/abs/2210.05015v3
- Date: Mon, 5 Jun 2023 05:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 04:22:40.796188
- Title: Optimality Guarantees for Particle Belief Approximation of POMDPs
- Title(参考訳): POMDPの粒子信念近似のための最適保証
- Authors: Michael H. Lim, Tyler J. Becker, Mykel J. Kochenderfer, Claire J.
Tomlin, Zachary N. Sunberg
- Abstract要約: 部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
- 参考スコア(独自算出の注目度): 60.184521257877606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially observable Markov decision processes (POMDPs) provide a flexible
representation for real-world decision and control problems. However, POMDPs
are notoriously difficult to solve, especially when the state and observation
spaces are continuous or hybrid, which is often the case for physical systems.
While recent online sampling-based POMDP algorithms that plan with observation
likelihood weighting have shown practical effectiveness, a general theory
characterizing the approximation error of the particle filtering techniques
that these algorithms use has not previously been proposed. Our main
contribution is bounding the error between any POMDP and its corresponding
finite sample particle belief MDP (PB-MDP) approximation. This fundamental
bridge between PB-MDPs and POMDPs allows us to adapt any sampling-based MDP
algorithm to a POMDP by solving the corresponding particle belief MDP, thereby
extending the convergence guarantees of the MDP algorithm to the POMDP.
Practically, this is implemented by using the particle filter belief transition
model as the generative model for the MDP solver. While this requires access to
the observation density model from the POMDP, it only increases the transition
sampling complexity of the MDP solver by a factor of $\mathcal{O}(C)$, where
$C$ is the number of particles. Thus, when combined with sparse sampling MDP
algorithms, this approach can yield algorithms for POMDPs that have no direct
theoretical dependence on the size of the state and observation spaces. In
addition to our theoretical contribution, we perform five numerical experiments
on benchmark POMDPs to demonstrate that a simple MDP algorithm adapted using
PB-MDP approximation, Sparse-PFT, achieves performance competitive with other
leading continuous observation POMDP solvers.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
しかし、POMDPは、特に状態空間と観測空間が連続的またはハイブリッドである場合、特に物理的システムでは解決が困難である。
観測可能性重み付けを計画した最近のオンラインサンプリングベースPOMDPアルゴリズムは実用的効果を示したが、これらのアルゴリズムが以前提案しなかった粒子フィルタリング手法の近似誤差を特徴付ける一般理論が提案されている。
我々の主な貢献は、任意のPOMDPとその対応する有限サンプル粒子信念 MDP (PB-MDP) 近似の誤差の境界である。
PB-MDP と POMDP の基本的なブリッジにより,対応する粒子信念 MDP を解くことで,サンプリングベースの MDP アルゴリズムを POMDP に適用し,MDP アルゴリズムの収束保証を POMDP に拡張することができる。
実際に, MDPソルバの生成モデルとして, 粒子フィルタの信念遷移モデルを用いてこれを実装した。
これは pomdp からの観測密度モデルへのアクセスを必要とするが、mdp ソルバの遷移サンプリング複雑性を $\mathcal{o}(c)$ で増加させるだけであり、ここで $c$ は粒子の数である。
したがって、スパースサンプリングMDPアルゴリズムと組み合わせることで、状態と観測空間のサイズに直接的な理論的依存を持たないPOMDPのアルゴリズムが得られる。
pb-mdp近似を用いた単純なmdpアルゴリズムであるsparse-pftが,他の有望な連続観測型pomdpソルバと性能的に競合することを実証するために,ベンチマーク pomdp における5つの数値実験を行った。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Stochastic Gradient Piecewise Deterministic Monte Carlo Samplers [3.487370856323828]
近年の研究では、モンテカルロ法を用いて、目的とする関心の分布から標本を抽出することを提案している。
後方分布からのスケーラブルサンプリングのためのサブサンプリングによるPDMPの近似シミュレーションを提案する。
これらの手法は実装が容易であることが示され、近似誤差の結果を示し、このアルゴリズムのクラスが勾配ランゲヴィン力学と類似の効率を持つことを示す。
論文 参考訳(メタデータ) (2024-06-27T09:59:28Z) - Near-Optimal Learning and Planning in Separated Latent MDPs [70.88315649628251]
我々は、潜在マルコフ決定過程(LMDP)の計算的および統計的側面について研究する。
このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。
論文 参考訳(メタデータ) (2024-06-12T06:41:47Z) - Towards Instance-Optimality in Online PAC Reinforcement Learning [28.156332484814616]
そこで本研究では,PACの同定に要するサンプルの複雑さに対する最初のインスタンス依存下限について提案する。
我々は、citeWagenmaker22linearMDPのPEDELアルゴリズムのサンプル複雑さがこの下界に近づいたことを実証する。
論文 参考訳(メタデータ) (2023-10-31T19:26:36Z) - Monte Carlo Neural PDE Solver for Learning PDEs via Probabilistic Representation [59.45669299295436]
教師なしニューラルソルバのトレーニングのためのモンテカルロPDEソルバを提案する。
我々は、マクロ現象をランダム粒子のアンサンブルとみなすPDEの確率的表現を用いる。
対流拡散, アレン・カーン, ナヴィエ・ストークス方程式に関する実験により, 精度と効率が著しく向上した。
論文 参考訳(メタデータ) (2023-02-10T08:05:19Z) - Linear programming-based solution methods for constrained POMDPs [0.5156484100374059]
制約付き部分観測可能なマルコフ決定過程(CPOMDP)は、様々な実世界の現象をモデル化するために用いられている。
我々は、CPOMDPの近似ポリシーを生成するために、グリッドベースの近似と線形プログラミング(LP)モデルを組み合わせる。
論文 参考訳(メタデータ) (2022-06-28T15:22:24Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - A Relation Analysis of Markov Decision Process Frameworks [26.308541799686505]
機械学習における異なる決定プロセス(MDP)フレームワークと計量経済学文献との関係について検討する。
エントロピー正規化 MDP は MDP モデルと同値であり,一般正規化 MDP により厳密に仮定されることを示す。
論文 参考訳(メタデータ) (2020-08-18T09:27:26Z) - Planning in Markov Decision Processes with Gap-Dependent Sample
Complexity [48.98199700043158]
マルコフ決定過程における計画のための新しいトラジェクトリに基づくモンテカルロ木探索アルゴリズム MDP-GapE を提案する。
我々は, MDP-GapE に要求される生成モデルに対する呼び出し回数の上限を証明し, 確率の高い準最適動作を同定する。
論文 参考訳(メタデータ) (2020-06-10T15:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。