論文の概要: Rao-Blackwellized POMDP Planning
- arxiv url: http://arxiv.org/abs/2409.16392v1
- Date: Tue, 24 Sep 2024 18:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 08:41:00.678401
- Title: Rao-Blackwellized POMDP Planning
- Title(参考訳): ラオス黒色化PMDP計画
- Authors: Jiho Lee, Nisar R. Ahmed, Kyle H. Wray, Zachary N. Sunberg,
- Abstract要約: 本研究では,Roo-Blackwellized POMDP 近似解法を紹介し,Roo-Blackwellization を信念更新とオンライン計画の両方に適用するための一般的な方法の概要を述べる。
エージェントがPOMCPOW と RB-POMCPOW のプランナを用いて,GPS を用いた環境下でターゲットに向かって移動するシミュレーション位置決定問題において,SIRPF と RBPF の性能を比較した。
以上の結果から, RBPF は粒子の少ない時間で正確な信念を保っていることが確認されただけでなく, より驚くべきことに, 4次統合と組み合わせた RBPF はSIRPF に基づく計画よりも計画品質が向上した。
- 参考スコア(独自算出の注目度): 10.762101459838048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially Observable Markov Decision Processes (POMDPs) provide a structured framework for decision-making under uncertainty, but their application requires efficient belief updates. Sequential Importance Resampling Particle Filters (SIRPF), also known as Bootstrap Particle Filters, are commonly used as belief updaters in large approximate POMDP solvers, but they face challenges such as particle deprivation and high computational costs as the system's state dimension grows. To address these issues, this study introduces Rao-Blackwellized POMDP (RB-POMDP) approximate solvers and outlines generic methods to apply Rao-Blackwellization in both belief updates and online planning. We compare the performance of SIRPF and Rao-Blackwellized Particle Filters (RBPF) in a simulated localization problem where an agent navigates toward a target in a GPS-denied environment using POMCPOW and RB-POMCPOW planners. Our results not only confirm that RBPFs maintain accurate belief approximations over time with fewer particles, but, more surprisingly, RBPFs combined with quadrature-based integration improve planning quality significantly compared to SIRPF-based planning under the same computational limits.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は不確実性の下での意思決定のための構造化されたフレームワークを提供するが、それらのアプリケーションは効率的な信念更新を必要とする。
逐次重要度再サンプリング粒子フィルタ(SIRPF)はBootstrap Particle Filtersとしても知られ、大きな近似POMDPソルバにおける信頼更新器として一般的に用いられているが、システムの状態次元が大きくなるにつれて、粒子の除去や高い計算コストといった課題に直面している。
これらの問題に対処するために、Roo-Blackwellized POMDP (RB-POMDP) 近似解法を導入し、Roo-Blackwellizationを信念更新とオンライン計画の両方に適用するための一般的な方法の概要を述べる。
エージェントがPOMCPOW と RB-POMCPOW のプランナーを用いて,GPS でターゲットに向かってナビゲートする模擬局所化問題において,SIRPF と Rao-Blackwellized Particle Filters (RBPF) の性能を比較した。
以上の結果から, RBPFは粒子数が少なく, 正確な信頼度を保っていることが確認できたが, より驚くべきことに, 計算限界下でのSIRPFベースの計画に比べて, 計画品質が向上した。
関連論文リスト
- Beyond the Boundaries of Proximal Policy Optimization [17.577317574595206]
この研究は、更新ベクトルのインナーループ推定に分解されるPPOの別の視点を提供する。
本稿では,これらの更新ベクトルを任意の勾配勾配を用いて適用するフレームワークとして,外部近似ポリシー最適化(outer-PPO)を提案する。
方法はBrax, Jumanji, MinAtar環境上で積極的に調整されたPPOベースラインに対して評価される。
論文 参考訳(メタデータ) (2024-11-01T15:29:10Z) - DyPNIPP: Predicting Environment Dynamics for RL-based Robust Informative Path Planning [13.462524685985818]
DyPNIPPは、時間的環境を効果的に横断するために設計された堅牢なRLベースのIPPフレームワークである。
野火環境での実験では、DyPNIPPは既存のRLベースのIPPアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-10-22T17:07:26Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Inferring Dynamic Networks from Marginals with Iterative Proportional Fitting [57.487936697747024]
実世界のデータ制約から生じる一般的なネットワーク推論問題は、その時間集約された隣接行列から動的ネットワークを推論する方法である。
本稿では,ネットワーク構造に対する最小限の変更の下でIPFの収束を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-28T20:24:56Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Proximal Policy Optimization with Adaptive Threshold for Symmetric
Relative Density Ratio [8.071506311915396]
一般的な方法、いわゆるポリシ最適化(PPO)とその変種は、密度比が与えられた閾値を超える場合に、最新のポリシーとベースラインポリシーの密度比を制約する。
本稿では,相対的ピアソン(RPE)偏差を用いた新しいPPO(PPO-RPE)を提案し,その閾値を適応的に設計する。
論文 参考訳(メタデータ) (2022-03-18T09:13:13Z) - Rule-based Shielding for Partially Observable Monte-Carlo Planning [78.05638156687343]
一部観測可能なモンテカルロ計画(POMCP)への2つの貢献を提案する。
1つ目は、POMCPが選択した予期しない行動を、タスクのエキスパートの事前知識に関して識別する方法です。
2つ目は、POMCPが予期せぬ動作を選択するのを防ぐ遮蔽アプローチである。
我々は,pomdpsの標準ベンチマークであるtigerに対するアプローチと,移動ロボットナビゲーションにおける速度規制に関する実世界問題を評価する。
論文 参考訳(メタデータ) (2021-04-28T14:23:38Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。