論文の概要: An On-Line POMDP Solver for Continuous Observation Spaces
- arxiv url: http://arxiv.org/abs/2011.02076v1
- Date: Wed, 4 Nov 2020 00:16:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:40:01.482395
- Title: An On-Line POMDP Solver for Continuous Observation Spaces
- Title(参考訳): 連続観測空間のためのオンラインPMDPソルバー
- Authors: Marcus Hoerger, Hanna Kurniawati
- Abstract要約: LABECOP(Lazy Belief extract for Continuous POMDPs)と呼ばれる新しいオンラインPOMDPソルバを提案する。
モンテカルロ・トレー・サーチの手法と粒子フィルタリングを組み合わせることで、離散化された観測空間を必要としない政策緩和を構築する。
連続観測空間を含む3つの異なる問題に対する実験により、LABECOP は最先端の POMDP 解法と類似または類似していることが示された。
- 参考スコア(独自算出の注目度): 5.482532589225552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning under partial obervability is essential for autonomous robots. A
principled way to address such planning problems is the Partially Observable
Markov Decision Process (POMDP). Although solving POMDPs is computationally
intractable, substantial advancements have been achieved in developing
approximate POMDP solvers in the past two decades. However, computing robust
solutions for problems with continuous observation spaces remains challenging.
Most on-line solvers rely on discretising the observation space or artificially
limiting the number of observations that are considered during planning to
compute tractable policies. In this paper we propose a new on-line POMDP
solver, called Lazy Belief Extraction for Continuous POMDPs (LABECOP), that
combines methods from Monte-Carlo-Tree-Search and particle filtering to
construct a policy reprentation which doesn't require discretised observation
spaces and avoids limiting the number of observations considered during
planning. Experiments on three different problems involving continuous
observation spaces indicate that LABECOP performs similar or better than
state-of-the-art POMDP solvers.
- Abstract(参考訳): 自律ロボットには部分的可観測性の下での計画が不可欠である。
このような計画問題に対処するための原則は、部分的に観測可能なマルコフ決定プロセス(POMDP)である。
POMDPの解法は計算に難航するが、過去20年間に近似したPOMDP解法の開発において大きな進歩を遂げてきた。
しかし、連続観測空間を持つ問題に対するロバスト解の計算は依然として困難である。
ほとんどのオンラインソルバは、観測空間の離散化や、計画中に考慮される観測回数を人為的に制限し、扱いやすい方針を計算する。
本稿では,モンテカルロ・トレー探索法と粒子フィルタリング法を組み合わせて,離散化された観測空間を必要とせず,計画中に考慮される観測回数の制限を回避するためのオンラインPOMDPソルバ,Lazy Belief extract for Continuous POMDPs (LABECOP)を提案する。
連続観測空間を含む3つの異なる問題に対する実験により、LABECOP は最先端の POMDP 解法と類似または類似していることが示された。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy
Search Over Policy Trees [5.250288418639076]
我々は、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるオンラインPOMDPソルバを提案する。
提案手法は,各計画段階において,ポリシーツリーの空間を探索するために,新しい遅延クロスエントロピー法を用いる。
提案手法は既存の最先端手法と比較して驚くほど単純であるが, 連続作用POMDP問題では実証的に優れていた。
論文 参考訳(メタデータ) (2023-05-14T03:12:53Z) - End-to-End Policy Gradient Method for POMDPs and Explainable Agents [2.1700203922407493]
エンド・ツー・エンド・トレーニングにより隠れた状態を推定するRLアルゴリズムを提案し、状態遷移グラフとして推定を可視化する。
実験により,提案アルゴリズムは単純なPOMDP問題を解くことができ,可視化によってエージェントの動作が人間に解釈可能であることを示した。
論文 参考訳(メタデータ) (2023-04-19T15:45:52Z) - Online Planning for Constrained POMDPs with Continuous Spaces through
Dual Ascent [37.61747231296097]
連続状態, 行動, 観測空間のためのオンラインCPOMDP計画アルゴリズムを提案する。
我々は,おもちゃと現実世界の安全クリティカルな問題をモデル化した連続CPOMDPに対する提案アルゴリズムの有効性を実証的に比較した。
論文 参考訳(メタデータ) (2022-12-23T05:22:39Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Linear programming-based solution methods for constrained POMDPs [0.5156484100374059]
制約付き部分観測可能なマルコフ決定過程(CPOMDP)は、様々な実世界の現象をモデル化するために用いられている。
我々は、CPOMDPの近似ポリシーを生成するために、グリッドベースの近似と線形プログラミング(LP)モデルを組み合わせる。
論文 参考訳(メタデータ) (2022-06-28T15:22:24Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。