論文の概要: Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2010.07452v2
- Date: Sat, 8 Jan 2022 13:31:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 05:11:41.063317
- Title: Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes
- Title(参考訳): 部分観測マルコフ決定過程における有限記憶フィードバックポリシーの近似的最適性
- Authors: Ali Devran Kara and Serdar Yuksel
- Abstract要約: システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the theory of Partially Observed Markov Decision Processes (POMDPs),
existence of optimal policies have in general been established via converting
the original partially observed stochastic control problem to a fully observed
one on the belief space, leading to a belief-MDP. However, computing an optimal
policy for this fully observed model, and so for the original POMDP, using
classical dynamic or linear programming methods is challenging even if the
original system has finite state and action spaces, since the state space of
the fully observed belief-MDP model is always uncountable. Furthermore, there
exist very few rigorous value function approximation and optimal policy
approximation results, as regularity conditions needed often require a tedious
study involving the spaces of probability measures leading to properties such
as Feller continuity. In this paper, we study a planning problem for POMDPs
where the system dynamics and measurement channel model are assumed to be
known. We construct an approximate belief model by discretizing the belief
space using only finite window information variables. We then find optimal
policies for the approximate model and we rigorously establish near optimality
of the constructed finite window control policies in POMDPs under mild
non-linear filter stability conditions and the assumption that the measurement
and action sets are finite (and the state space is real vector valued). We also
establish a rate of convergence result which relates the finite window memory
size and the approximation error bound, where the rate of convergence is
exponential under explicit and testable exponential filter stability
conditions. While there exist many experimental results and few rigorous
asymptotic convergence results, an explicit rate of convergence result is new
in the literature, to our knowledge.
- Abstract(参考訳): 部分観測マルコフ決定過程(POMDPs)の理論では、元の部分的に観察された確率的制御問題を信念空間上の完全に観察されたものに変換し、信念-MDPへと導くことによって、一般的に最適なポリシーが確立されている。
しかし、この完全観測モデルに対する最適ポリシーを計算し、したがって元のPOMDPでは、古典的動的あるいは線形プログラミング手法を用いることは、完全に観測された信念-MDPモデルの状態空間が常に可算であるため、元のシステムが有限の状態と作用空間を持つ場合でも困難である。
さらに、厳密な値関数近似と最適政策近似の結果はごくわずかであり、規則性条件は、しばしば、ファラー連続性のような性質につながる確率測度の空間を含む退屈な研究を必要とする。
本稿では,システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
有限ウィンドウ情報変数のみを用いて信念空間を離散化することにより、近似的信念モデルを構築する。
次に, 近似モデルに対する最適方針を見いだし, 軽度非線形フィルタ安定条件下でのpomdpにおける構築した有限ウィンドウ制御ポリシーの近似性と, 測定と動作集合が有限であるという仮定(状態空間は実ベクトル値である)を厳密に確立する。
また,有限ウィンドウメモリサイズと近似誤差境界を関係づけた収束率を定式化し,明示的かつテスト可能な指数関数的フィルタ安定性条件下で収束率を指数関数化する。
多くの実験結果と厳密な漸近収束結果はほとんど存在しないが、我々の知識に拠れば、明らかな収束率は文献に新しいものである。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Strongly-polynomial time and validation analysis of policy gradient methods [3.722665817361884]
本稿では,有限状態および行動マルコフ決定過程(MDP)と強化学習(RL)のための,優位ギャップ関数と呼ばれる新しい終了基準を提案する。
この利点ギャップ関数をステップサイズルールの設計に組み込むことで、最適ポリシーの定常状態分布に依存しない新しい線形収束率を導出する。
政策勾配法に対してそのような強い収束特性が確立されたのはこれが初めてである。
論文 参考訳(メタデータ) (2024-09-28T18:56:48Z) - Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs [82.34567890576423]
我々は,非漸近収束を伴う最適決定主義政策を求めるための決定主義的政策勾配原始双対法を開発した。
D-PGPDの一次-双対反復は、最適正則化原始-双対にサブ線形速度で収束することが証明された。
我々の知る限り、これは連続空間制約型MDPに対する決定論的ポリシー探索法を提案する最初の研究であると思われる。
論文 参考訳(メタデータ) (2024-08-19T14:11:04Z) - Double Duality: Variational Primal-Dual Policy Optimization for
Constrained Reinforcement Learning [132.7040981721302]
本研究では,訪問尺度の凸関数を最小化することを目的として,制約付き凸決定プロセス(MDP)について検討する。
制約付き凸MDPの設計アルゴリズムは、大きな状態空間を扱うなど、いくつかの課題に直面している。
論文 参考訳(メタデータ) (2024-02-16T16:35:18Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Optimal Learning via Moderate Deviations Theory [4.6930976245638245]
我々は、中等度偏差原理に基づくアプローチを用いて、高精度な信頼区間の体系的構築を開発する。
提案した信頼区間は,指数的精度,最小性,整合性,誤評価確率,結果整合性(UMA)特性の基準を満たすという意味で統計的に最適であることが示されている。
論文 参考訳(メタデータ) (2023-05-23T19:57:57Z) - Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings [97.12538243736705]
大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
論文 参考訳(メタデータ) (2022-06-24T05:13:35Z) - Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs [21.347689976296834]
我々は、割引された最適レート問題を解くために、自然政策勾配法を用いる。
また、2つのサンプルベースNPG-PDアルゴリズムに対して収束と有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2022-06-06T04:28:04Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Convergence of Finite Memory Q-Learning for POMDPs and Near Optimality
of Learned Policies under Filter Stability [0.0]
POMDPに対して、過去の観測と制御行動の有限履歴を用いて、制御ポリシーに対するQ学習アルゴリズムの収束を提供する。
有限履歴ウィンドウの長さに対する近似誤差に関する明示的な誤差境界を示す。
我々は、極限不動点方程式が近似的信念-MDPの最適解を与えることを示す。
論文 参考訳(メタデータ) (2021-03-22T20:14:26Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。