論文の概要: Finite-Time Analysis of Natural Actor-Critic for POMDPs
- arxiv url: http://arxiv.org/abs/2202.09753v3
- Date: Wed, 19 Jul 2023 14:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 18:32:59.988531
- Title: Finite-Time Analysis of Natural Actor-Critic for POMDPs
- Title(参考訳): POMDPにおける自然アクター臨界の有限時間解析
- Authors: Semih Cayci, Niao He, R. Srikant
- Abstract要約: 部分観測されたマルコフ決定過程(POMDP)に対する強化学習問題について考察する。
本稿では、ポリシーパラメータ化に有限内部メモリを用いる自然なアクター批判法について考察する。
より大きなブロックサイズを用いて,スライディングブロックコントローラの場合,この誤差を小さくすることができることを示す。
- 参考スコア(独自算出の注目度): 29.978816372127085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the reinforcement learning problem for partially observed Markov
decision processes (POMDPs) with large or even countably infinite state spaces,
where the controller has access to only noisy observations of the underlying
controlled Markov chain. We consider a natural actor-critic method that employs
a finite internal memory for policy parameterization, and a multi-step temporal
difference learning algorithm for policy evaluation. We establish, to the best
of our knowledge, the first non-asymptotic global convergence of actor-critic
methods for partially observed systems under function approximation. In
particular, in addition to the function approximation and statistical errors
that also arise in MDPs, we explicitly characterize the error due to the use of
finite-state controllers. This additional error is stated in terms of the total
variation distance between the traditional belief state in POMDPs and the
posterior distribution of the hidden state when using a finite-state
controller. Further, we show that this error can be made small in the case of
sliding-block controllers by using larger block sizes.
- Abstract(参考訳): 制御器が制御されたマルコフ連鎖のノイズのみを観測できるような、大きく、あるいは数え切れないほど無限な状態空間を持つ部分観測マルコフ決定過程(POMDP)の強化学習問題を考察する。
ポリシーパラメータ化に有限内部メモリを用いる自然なアクター批判法とポリシー評価のための多段階時間差分学習アルゴリズムを考える。
我々の知る限りでは、関数近似の下で部分的に観測されたシステムに対するアクター-批判法の非漸近的大域収束を初めて確立する。
特に, MDP で発生する関数近似や統計的誤差に加えて, 有限状態制御器の使用による誤差を明示的に特徴づける。
この追加誤差は、PMDPの伝統的な信念状態と有限状態コントローラを使用する場合の隠れ状態の後部分布との間の全変動距離の観点から記述される。
さらに,より大きなブロックサイズを用いることで,スライディングブロックコントローラの場合,この誤差を小さくすることができることを示す。
関連論文リスト
- Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Robust Control for Dynamical Systems With Non-Gaussian Noise via Formal
Abstractions [59.605246463200736]
雑音分布の明示的な表現に依存しない新しい制御器合成法を提案する。
まず、連続制御系を有限状態モデルに抽象化し、離散状態間の確率的遷移によってノイズを捕捉する。
我々は最先端の検証技術を用いてマルコフ決定プロセスの間隔を保証し、これらの保証が元の制御システムに受け継がれるコントローラを演算する。
論文 参考訳(メタデータ) (2023-01-04T10:40:30Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian
Noise [59.47042225257565]
雑音分布の明示的な表現に依存しない新しい計画法を提案する。
まず、連続系を離散状態モデルに抽象化し、状態間の確率的遷移によってノイズを捕捉する。
いわゆる区間マルコフ決定過程(iMDP)の遷移確率区間におけるこれらの境界を捉える。
論文 参考訳(メタデータ) (2021-10-25T06:18:55Z) - Correct-by-construction reach-avoid control of partially observable
linear stochastic systems [7.912008109232803]
離散時間線形時間不変系のリーチエイド制御のための頑健なフィードバックコントローラを定式化する。
問題は、必要となる証明状態の抽象化問題を満たすコントローラを計算することである。
論文 参考訳(メタデータ) (2021-03-03T13:46:52Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Near Optimality of Finite Memory Feedback Policies in Partially Observed
Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。
軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。
また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文 参考訳(メタデータ) (2020-10-15T00:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。