論文の概要: An On-Line POMDP Solver for Continuous Observation Spaces
- arxiv url: http://arxiv.org/abs/2011.02076v1
- Date: Wed, 4 Nov 2020 00:16:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:40:01.482395
- Title: An On-Line POMDP Solver for Continuous Observation Spaces
- Title(参考訳): 連続観測空間のためのオンラインPMDPソルバー
- Authors: Marcus Hoerger, Hanna Kurniawati
- Abstract要約: LABECOP(Lazy Belief extract for Continuous POMDPs)と呼ばれる新しいオンラインPOMDPソルバを提案する。
モンテカルロ・トレー・サーチの手法と粒子フィルタリングを組み合わせることで、離散化された観測空間を必要としない政策緩和を構築する。
連続観測空間を含む3つの異なる問題に対する実験により、LABECOP は最先端の POMDP 解法と類似または類似していることが示された。
- 参考スコア(独自算出の注目度): 5.482532589225552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning under partial obervability is essential for autonomous robots. A
principled way to address such planning problems is the Partially Observable
Markov Decision Process (POMDP). Although solving POMDPs is computationally
intractable, substantial advancements have been achieved in developing
approximate POMDP solvers in the past two decades. However, computing robust
solutions for problems with continuous observation spaces remains challenging.
Most on-line solvers rely on discretising the observation space or artificially
limiting the number of observations that are considered during planning to
compute tractable policies. In this paper we propose a new on-line POMDP
solver, called Lazy Belief Extraction for Continuous POMDPs (LABECOP), that
combines methods from Monte-Carlo-Tree-Search and particle filtering to
construct a policy reprentation which doesn't require discretised observation
spaces and avoids limiting the number of observations considered during
planning. Experiments on three different problems involving continuous
observation spaces indicate that LABECOP performs similar or better than
state-of-the-art POMDP solvers.
- Abstract(参考訳): 自律ロボットには部分的可観測性の下での計画が不可欠である。
このような計画問題に対処するための原則は、部分的に観測可能なマルコフ決定プロセス(POMDP)である。
POMDPの解法は計算に難航するが、過去20年間に近似したPOMDP解法の開発において大きな進歩を遂げてきた。
しかし、連続観測空間を持つ問題に対するロバスト解の計算は依然として困難である。
ほとんどのオンラインソルバは、観測空間の離散化や、計画中に考慮される観測回数を人為的に制限し、扱いやすい方針を計算する。
本稿では,モンテカルロ・トレー探索法と粒子フィルタリング法を組み合わせて,離散化された観測空間を必要とせず,計画中に考慮される観測回数の制限を回避するためのオンラインPOMDPソルバ,Lazy Belief extract for Continuous POMDPs (LABECOP)を提案する。
連続観測空間を含む3つの異なる問題に対する実験により、LABECOP は最先端の POMDP 解法と類似または類似していることが示された。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - A Surprisingly Simple Continuous-Action POMDP Solver: Lazy Cross-Entropy
Search Over Policy Trees [5.250288418639076]
我々は、Lazy Cross-Entropy Search Over Policy Trees (L CEOPT) と呼ばれるオンラインPOMDPソルバを提案する。
提案手法は,各計画段階において,ポリシーツリーの空間を探索するために,新しい遅延クロスエントロピー法を用いる。
提案手法は既存の最先端手法と比較して驚くほど単純であるが, 連続作用POMDP問題では実証的に優れていた。
論文 参考訳(メタデータ) (2023-05-14T03:12:53Z) - End-to-End Policy Gradient Method for POMDPs and Explainable Agents [2.1700203922407493]
エンド・ツー・エンド・トレーニングにより隠れた状態を推定するRLアルゴリズムを提案し、状態遷移グラフとして推定を可視化する。
実験により,提案アルゴリズムは単純なPOMDP問題を解くことができ,可視化によってエージェントの動作が人間に解釈可能であることを示した。
論文 参考訳(メタデータ) (2023-04-19T15:45:52Z) - Online Planning for Constrained POMDPs with Continuous Spaces through
Dual Ascent [37.61747231296097]
連続状態, 行動, 観測空間のためのオンラインCPOMDP計画アルゴリズムを提案する。
我々は,おもちゃと現実世界の安全クリティカルな問題をモデル化した連続CPOMDPに対する提案アルゴリズムの有効性を実証的に比較した。
論文 参考訳(メタデータ) (2022-12-23T05:22:39Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Sample-Efficient Reinforcement Learning for POMDPs with Linear Function
Approximations [130.66193083412716]
本稿では,関数近似と部分観測可能性の緊張に対処する。
最適ポリシーと値関数は有限メモリヒルベルト・ベルマン作用素の列によって特徴づけられることを示す。
本稿では、カーネル空間(RKHS)の埋め込みを再現することで、これらの演算子の楽観的な推定値を構成するRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。