論文の概要: Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings
- arxiv url: http://arxiv.org/abs/2206.12081v1
- Date: Fri, 24 Jun 2022 05:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 01:11:20.615615
- Title: Computationally Efficient PAC RL in POMDPs with Latent Determinism and
Conditional Embeddings
- Title(参考訳): 潜在決定論と条件埋め込みを持つpomdpにおける計算効率のよいpac rl
- Authors: Masatoshi Uehara, Ayush Sekhari, Jason D. Lee, Nathan Kallus, Wen Sun
- Abstract要約: 大規模部分観測可能決定プロセス(POMDP)の関数近似を用いた強化学習に関する研究
我々のアルゴリズムは、大規模POMDPに確実にスケールする。
- 参考スコア(独自算出の注目度): 97.12538243736705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study reinforcement learning with function approximation for large-scale
Partially Observable Markov Decision Processes (POMDPs) where the state space
and observation space are large or even continuous. Particularly, we consider
Hilbert space embeddings of POMDP where the feature of latent states and the
feature of observations admit a conditional Hilbert space embedding of the
observation emission process, and the latent state transition is deterministic.
Under the function approximation setup where the optimal latent state-action
$Q$-function is linear in the state feature, and the optimal $Q$-function has a
gap in actions, we provide a \emph{computationally and statistically efficient}
algorithm for finding the \emph{exact optimal} policy. We show our algorithm's
computational and statistical complexities scale polynomially with respect to
the horizon and the intrinsic dimension of the feature on the observation
space. Furthermore, we show both the deterministic latent transitions and gap
assumptions are necessary to avoid statistical complexity exponential in
horizon or dimension. Since our guarantee does not have an explicit dependence
on the size of the state and observation spaces, our algorithm provably scales
to large-scale POMDPs.
- Abstract(参考訳): 本研究では,大規模部分観測可能なマルコフ決定過程(POMDP)の関数近似による強化学習について検討した。
特に、可観測状態の特徴と観測の特徴が観測放出過程の条件付きヒルベルト空間埋め込みを許容し、可観測状態遷移が決定論的であるようなpomdpのヒルベルト空間埋め込みを考える。
最適な潜在状態作用である$Q$-関数が状態特徴において線形であり、最適な$Q$-関数が作用のギャップを持つ関数近似設定では、 \emph{exact optimal} ポリシーを見つけるための \emph{computationally and statistically efficient} アルゴリズムを提供する。
このアルゴリズムの計算的・統計的複雑度は,観測空間上の特徴の地平線と固有次元に関して多項式的にスケールする。
さらに,統計的複雑性を地平線や次元に指数関数的に避けるためには,決定論的潜在遷移とギャップ仮定の両方が必要であることを示した。
我々の保証は状態と観測空間のサイズに明示的に依存しないので、我々のアルゴリズムは大規模POMDPに確実にスケールする。
関連論文リスト
- Weighted mesh algorithms for general Markov decision processes: Convergence and tractability [0.9940462449990576]
離散時間有限水平マルコフ決定過程(MDP)に対するメッシュ型アプローチを提案する。
非有界な状態空間に対して、このアルゴリズムは、複雑性がある次元独立な$cgeq2$を持つ$epsilonc$であるという意味で「半有理」である。
論文 参考訳(メタデータ) (2024-06-29T10:08:23Z) - Measurement Simplification in ρ-POMDP with Performance Guarantees [6.129902017281406]
不確実性の下での意思決定は、不完全な情報で行動する自律システムの中心にある。
本稿では,高次元観測空間を分割することで,効率的な意思決定手法を提案する。
境界は適応的で、計算効率が良く、元の解に収束していることが示される。
論文 参考訳(メタデータ) (2023-09-19T15:40:42Z) - Optimal Scaling for Locally Balanced Proposals in Discrete Spaces [65.14092237705476]
離散空間におけるMetropolis-Hastings (M-H) アルゴリズムの効率は、対象分布に依存しない受容率によって特徴づけられることを示す。
最適受容率の知識は、連続空間におけるステップサイズ制御と直接的に類似して、離散空間における提案分布の近傍サイズを自動的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-09-16T22:09:53Z) - PAC Reinforcement Learning for Predictive State Representations [60.00237613646686]
部分的に観察可能な力学系におけるオンライン強化学習(RL)について検討する。
我々は、他のよく知られたモデルをキャプチャする表現モデルである予測状態表現(PSR)モデルに焦点を当てる。
我々は,サンプル複雑性のスケーリングにおいて,ほぼ最適なポリシを学習可能な,PSRのための新しいモデルベースアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-07-12T17:57:17Z) - Provably Efficient Reinforcement Learning in Partially Observable
Dynamical Systems [97.12538243736705]
関数近似を用いた部分観測可能力学系の強化学習について検討する。
本稿では,POMDP,LQG,予測状態表現 (Predictive State Representations,PSR) などのモデルや,POMDPのHilbert Space Embeddingsや観測可能なPOMDPを遅延低ランク遷移で組み込むことのできる,汎用的な新しいテクスタイト(Partially Observar Bilinear Actor-Critic)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-24T00:27:42Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z) - Sparse tree search optimality guarantees in POMDPs with continuous
observation spaces [39.17638795259191]
連続状態と観測空間を持つ部分観測可能なマルコフ決定プロセス(POMDP)は、実世界の意思決定と制御問題を表現するための強力な柔軟性を有する。
観測可能性重み付けを用いた最近のオンラインサンプリングベースアルゴリズムは、連続的な観測空間を持つ領域において、前例のない有効性を示している。
この研究は、単純化されたアルゴリズム、部分的に観測可能な重み付きスパースサンプリング(POWSS)が高い確率でQ値を正確に推定し、最適解の近くで任意に実行できることを証明し、そのような正当化を提供する。
論文 参考訳(メタデータ) (2019-10-10T02:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。