論文の概要: Off-Policy Evaluation for Episodic Partially Observable Markov Decision
Processes under Non-Parametric Models
- arxiv url: http://arxiv.org/abs/2209.10064v1
- Date: Wed, 21 Sep 2022 01:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:01:31.617569
- Title: Off-Policy Evaluation for Episodic Partially Observable Markov Decision
Processes under Non-Parametric Models
- Title(参考訳): 非パラメトリックモデルによるエピソディック部分観測マルコフ決定過程のオフポリシー評価
- Authors: Rui Miao, Zhengling Qi, Xiaoke Zhang
- Abstract要約: 本研究では,連続状態を持つ部分観測可能マルコフ決定過程(POMDP)の非政治評価(OPE)問題について検討する。
最近提案された因果推論フレームワークに動機付けられ,政策価値を推定する非パラメトリック同定結果を開発した。
これは非パラメトリックモデルの下でのPOMDPにおけるOPEに対する最初の有限サンプル誤差である。
- 参考スコア(独自算出の注目度): 2.3411358616430435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of off-policy evaluation (OPE) for episodic Partially
Observable Markov Decision Processes (POMDPs) with continuous states. Motivated
by the recently proposed proximal causal inference framework, we develop a
non-parametric identification result for estimating the policy value via a
sequence of so-called V-bridge functions with the help of time-dependent proxy
variables. We then develop a fitted-Q-evaluation-type algorithm to estimate
V-bridge functions recursively, where a non-parametric instrumental variable
(NPIV) problem is solved at each step. By analyzing this challenging sequential
NPIV problem, we establish the finite-sample error bounds for estimating the
V-bridge functions and accordingly that for evaluating the policy value, in
terms of the sample size, length of horizon and so-called (local) measure of
ill-posedness at each step. To the best of our knowledge, this is the first
finite-sample error bound for OPE in POMDPs under non-parametric models.
- Abstract(参考訳): 本研究では,連続状態を持つ部分観測可能マルコフ決定過程(POMDP)の非政治評価(OPE)問題について検討する。
最近提案された近位因果推論フレームワークにより、時間依存のプロキシ変数の助けを借りて、いわゆるVブリッジ関数の列を通じてポリシー値を推定する非パラメトリック識別結果を開発する。
次に、Vブリッジ関数を再帰的に推定する適合Q評価型アルゴリズムを開発し、各ステップで非パラメトリックインスツルメンタル変数(NPIV)問題を解く。
この挑戦的な逐次NPIV問題を解析することにより、V-bridge関数を推定するための有限サンプル誤差境界を確立し、その結果、各ステップにおける標本サイズ、水平の長さ、いわゆる(局所的な)不適切な測度の観点からポリシー値を評価する。
我々の知る限りでは、これは非パラメトリックモデルの下でのPOMDPにおけるOPEに対する最初の有限サンプル誤差である。
関連論文リスト
- Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - A Minimax Learning Approach to Off-Policy Evaluation in Partially
Observable Markov Decision Processes [31.215206208622728]
部分観測可能なマルコフ決定過程(POMDP)におけるオフ・ポリティクス評価(OPE)の検討
既存の手法は、計測されていない共同創設者の存在における大きなバイアスや、連続的あるいは大規模な観測/状態空間の設定における大きなばらつきに悩まされる。
提案手法は,POMDPにおいて,目的ポリシー値と観測データ分布をリンクするブリッジ関数を導入することで,提案手法を提案する。
論文 参考訳(メタデータ) (2021-11-12T15:52:24Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Nonparametric estimation of continuous DPPs with kernel methods [0.0]
パラメトリックおよび非パラメトリック推論法は、有限の場合、すなわち、点パターンが有限の基底集合に存在する場合において提案されている。
我々は、この最大可能性(MLE)問題の制限バージョンが、RKHSにおける非負関数に対する最近の表現定理の範囲内にあることを示す。
この有限次元問題を解くための固定点アルゴリズムを提案し,解析し,実証する。
論文 参考訳(メタデータ) (2021-06-27T11:57:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。