論文の概要: Scalable Policy-Based RL Algorithms for POMDPs
- arxiv url: http://arxiv.org/abs/2510.06540v1
- Date: Wed, 08 Oct 2025 00:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.243263
- Title: Scalable Policy-Based RL Algorithms for POMDPs
- Title(参考訳): POMDPのためのスケーラブルなポリシーベースRLアルゴリズム
- Authors: Ameya Anjarlekar, Rasoul Etesami, R Srikant,
- Abstract要約: 我々は、POMDPモデルを有限状態マルコフ決定プロセス(MDP)に近似することにより、部分観測可能強化学習(PORL)問題を解決するアプローチを検討する。
近似誤差はこの履歴の長さとともに指数関数的に減少することを示す。
我々の知識を最大限に活用するために、我々の有限時間境界は、真の力学がマルコフ的でない設定に標準的TD学習を適用する際に導入された誤差を明示的に定量化する最初のものである。
- 参考スコア(独自算出の注目度): 6.2229686397601585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The continuous nature of belief states in POMDPs presents significant computational challenges in learning the optimal policy. In this paper, we consider an approach that solves a Partially Observable Reinforcement Learning (PORL) problem by approximating the corresponding POMDP model into a finite-state Markov Decision Process (MDP) (called Superstate MDP). We first derive theoretical guarantees that improve upon prior work that relate the optimal value function of the transformed Superstate MDP to the optimal value function of the original POMDP. Next, we propose a policy-based learning approach with linear function approximation to learn the optimal policy for the Superstate MDP. Consequently, our approach shows that a POMDP can be approximately solved using TD-learning followed by Policy Optimization by treating it as an MDP, where the MDP state corresponds to a finite history. We show that the approximation error decreases exponentially with the length of this history. To the best of our knowledge, our finite-time bounds are the first to explicitly quantify the error introduced when applying standard TD learning to a setting where the true dynamics are not Markovian.
- Abstract(参考訳): POMDPにおける信念状態の連続的な性質は、最適政策を学ぶ上で重要な計算上の課題を示す。
本稿では、対応するPOMDPモデルを有限状態マルコフ決定プロセス(MDP)に近似することにより、部分観測可能強化学習(PORL)問題を解決する手法を検討する。
まず、変換されたスーパーステートMDPの最適値関数と元のPOMDPの最適値関数を関連づける事前作業を改善する理論的な保証を導出する。
次に、線形関数近似を用いたポリシーに基づく学習手法を提案し、スーパーステートMDPの最適ポリシーを学習する。
その結果,PMDP は TD-learning を用いて大まかに解けることを示すとともに,MDP を MDP として扱うことで,MDP の状態が有限履歴に対応していることを示す。
近似誤差はこの履歴の長さとともに指数関数的に減少することを示す。
我々の知識を最大限に活用するために、我々の有限時間境界は、真の力学がマルコフ的でない設定に標準的TD学習を適用する際に導入された誤差を明示的に定量化する最初のものである。
関連論文リスト
- On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Recursively-Constrained Partially Observable Markov Decision Processes [13.8724466775267]
C-POMDPは連続的な決定ステップに対して最適なサブ構造特性に反することを示す。
C-POMDPのオンライン再計画は、この違反による不整合のため、しばしば効果がない。
本稿では,C-POMDPに履歴に依存したコスト制約を課す再帰的制約付きPOMDPを提案する。
論文 参考訳(メタデータ) (2023-10-15T00:25:07Z) - A Theoretical Analysis of Optimistic Proximal Policy Optimization in
Linear Markov Decision Processes [13.466249082564213]
本稿では,全情報フィードバックを用いた表層線形MDPに対するPPOの楽観的変種を提案する。
既存のポリシーベースのアルゴリズムと比較して, 線形MDPと逆線形MDPの双方において, 完全な情報付きで, 最先端の後悔点を達成している。
論文 参考訳(メタデータ) (2023-05-15T17:55:24Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。
MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。
$(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文 参考訳(メタデータ) (2022-09-21T18:10:28Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。