論文の概要: Adaptive Belief Discretization for POMDP Planning
- arxiv url: http://arxiv.org/abs/2104.07276v1
- Date: Thu, 15 Apr 2021 07:04:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 02:49:48.320647
- Title: Adaptive Belief Discretization for POMDP Planning
- Title(参考訳): pomdp計画のための適応的信念判別
- Authors: Divya Grover, Christos Dimitrakakis
- Abstract要約: 多くのPOMDPソルバは、信念空間を均一に識別し、(一般に不明な)カバー数の観点から計画誤差を与える。
適応的信念の識別方式を提案し,それに関連する計画誤差を与える。
私達は私達のアルゴリズムがさまざまなシナリオの最先端の技術と競争が高いことを証明します。
- 参考スコア(独自算出の注目度): 7.508023795800546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partially Observable Markov Decision Processes (POMDP) is a widely used model
to represent the interaction of an environment and an agent, under state
uncertainty. Since the agent does not observe the environment state, its
uncertainty is typically represented through a probabilistic belief. While the
set of possible beliefs is infinite, making exact planning intractable, the
belief space's complexity (and hence planning complexity) is characterized by
its covering number. Many POMDP solvers uniformly discretize the belief space
and give the planning error in terms of the (typically unknown) covering
number. We instead propose an adaptive belief discretization scheme, and give
its associated planning error. We furthermore characterize the covering number
with respect to the POMDP parameters. This allows us to specify the exact
memory requirements on the planner, needed to bound the value function error.
We then propose a novel, computationally efficient solver using this scheme. We
demonstrate that our algorithm is highly competitive with the state of the art
in a variety of scenarios.
- Abstract(参考訳): 部分的に観測可能なマルコフ決定プロセス(POMDP)は環境とエージェントの相互作用を表現するために広く使われているモデルである。
エージェントは環境状態を観察しないため、その不確実性は通常確率論的信念によって表される。
考えられる信条の集合は無限であり、正確な計画が難しいが、信条空間の複雑性(従って計画の複雑さ)はその被覆数によって特徴づけられる。
多くのpomdpソルバは、信念空間を一様に判別し、(通常不明な)被覆数の観点から計画誤差を与える。
代わりに,適応的信念判別スキームを提案し,それに関連する計画誤差を与える。
さらに、POMDPパラメータに関する被覆数を特徴付ける。
これにより、値関数エラーをバウンドするために必要なプランナーの正確なメモリ要件を指定できます。
次に,このスキームを用いた新しい計算効率の高い解法を提案する。
さまざまなシナリオにおいて,我々のアルゴリズムが最先端技術と高い競争力を持つことを示す。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Prospective Side Information for Latent MDPs [80.00842638151558]
本報告では,各エピソードの開始時に,エージェントが付加的,弱く露呈する情報を受信した場合に,予測側情報を用いたLMDPのクラスについて検討する。
驚くべきことに、この問題は、部分的に観察された環境のために設計された現代の設定やアルゴリズムによって捉えられていない。
すると、サンプル効率の良いアルゴリズムは、標準の$Omega(K2/3)$-regretとは対照的に、少なくとも$Omega(K2/3)$-regretを被ることを確立し、一致する上限を持つアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-10-11T15:37:31Z) - Robots That Ask For Help: Uncertainty Alignment for Large Language Model
Planners [85.03486419424647]
KnowNoは、大きな言語モデルの不確実性を測定し、調整するためのフレームワークである。
KnowNoは、タスク完了に関する統計的保証を提供する共形予測理論に基づいている。
論文 参考訳(メタデータ) (2023-07-04T21:25:12Z) - Simplified Continuous High Dimensional Belief Space Planning with
Adaptive Probabilistic Belief-dependent Constraints [9.061408029414453]
部分的に観測可能な領域における不確実性、あるいはBelief Space Planningとしても知られる場合、オンライン意思決定は根本的な問題である。
本稿では,確率論的信念に依存した制約に対して,適応的に行動列を受理あるいは破棄する手法を提案する。
本手法を高次元空間計画の課題であるアクティブSLAMに適用する。
論文 参考訳(メタデータ) (2023-02-13T21:22:47Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Adaptive Information Belief Space Planning [9.365993173260316]
我々は、不確実性に明示的に対処する報酬関数を使用して、情報決定を効率的に行うことに重点を置いている。
期待される情報理論の報奨関数と結果の値関数のバウンダリを導出する。
そこで我々は,計算時間のごく一部で同一の動作選択を実現するために集約を洗練させる手法を提案する。
論文 参考訳(メタデータ) (2022-01-14T21:12:00Z) - Planning in Observable POMDPs in Quasipolynomial Time [21.03037504572896]
我々は観測可能なPOMDPの計画のための準ポリノミカル時間アルゴリズムを開発した。
我々は、状態上のよく分断された分布が観察上のよく分断された分布をもたらすと仮定する。
観測可能なPOMDPの指数時間仮説の下での計画に適合する硬さを実証する。
論文 参考訳(メタデータ) (2022-01-12T23:16:37Z) - Efficient Belief Space Planning in High-Dimensional State Spaces using
PIVOT: Predictive Incremental Variable Ordering Tactic [11.878820609988693]
我々は,不確実性の下でのオンライン意思決定の問題点を考察し,信頼空間における計画として定式化する。
このアプローチを PIVOT: Predictive Incremental Variable Ordering Tactic と呼ぶ。
この戦術を適用することで、状態推論の効率も向上する。
論文 参考訳(メタデータ) (2021-12-29T07:30:47Z) - Minimax Regret Optimisation for Robust Planning in Uncertain Markov
Decision Processes [3.5289688061934963]
Minimaxの後悔は、堅牢なポリシーを見つけるためにUncertain MDPの計画の目的として提案されています。
政策の後悔を計算するためにベルマン方程式を導入する。
独立した不確実性を有するUMDPに対して,minimaxの後悔を正確に最適化できることが示される。
論文 参考訳(メタデータ) (2020-12-08T18:48:14Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。