論文の概要: Off-Policy Evaluation in Partially Observed Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2110.12343v1
- Date: Sun, 24 Oct 2021 03:35:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 18:19:04.544967
- Title: Off-Policy Evaluation in Partially Observed Markov Decision Processes
- Title(参考訳): 部分観察マルコフ決定過程におけるオフポリシィ評価
- Authors: Yuchen Hu and Stefan Wager
- Abstract要約: 我々は、基礎システムを部分的に観察されたマルコフ決定過程(POMDP)としてモデル化できるという仮定の下で、動的処理規則の非政治的評価を考察する。
本研究では, 目標政策の定常平均報酬を, 行動方針から十分に引き出すことができれば, 常に推定できることを示す。
以上の結果から,POMDPの非政治評価は(十分に観察された)マルコフ決定過程の非政治評価よりも厳格に難しいことが示唆された。
- 参考スコア(独自算出の注目度): 8.591839265985415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider off-policy evaluation of dynamic treatment rules under the
assumption that the underlying system can be modeled as a partially observed
Markov decision process (POMDP). We propose an estimator, partial history
importance weighting, and show that it can consistently estimate the stationary
mean rewards of a target policy given long enough draws from the behavior
policy. Furthermore, we establish an upper bound on its error that decays
polynomially in the number of observations (i.e., the number of trajectories
times their length), with an exponent that depends on the overlap of the target
and behavior policies, and on the mixing time of the underlying system. We also
establish a polynomial minimax lower bound for off-policy evaluation under the
POMDP assumption, and show that its exponent has the same qualitative
dependence on overlap and mixing time as obtained in our upper bound. Together,
our upper and lower bounds imply that off-policy evaluation in POMDPs is
strictly harder than off-policy evaluation in (fully observed) Markov decision
processes, but strictly easier than model-free off-policy evaluation.
- Abstract(参考訳): 我々は, マルコフ決定過程 (pomdp) のモデル化が可能であることを前提として, 動的処理ルールのオフポリシー評価を考える。
そこで本研究では,行動方針から十分な距離を引いた目標政策の定常平均報酬を連続的に推定できることを示し,その重み付けによる部分的履歴の重み付けを提案する。
さらに, 対象と行動方針の重ね合わせに依存する指数と, 基本系の混合時間に依存する指数を用いて, 観測回数(すなわち, 軌道数がその長さ倍)で多項式的に崩壊する誤差の上限を定式化する。
また,pomdpを仮定したオフポリシー評価のための多項式ミニマックス下限を定式化し,その指数が上界における重なりと混合時間に対する定性的依存性を持つことを示した。
以上より,pomdpsにおけるオフポリシー評価は,(完全に観察された)マルコフ決定過程においてオフポリシー評価よりも厳格に難しいが,モデルフリーのオフポリシー評価よりも厳格に容易であることを示す。
関連論文リスト
- Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Model-Free and Model-Based Policy Evaluation when Causality is Uncertain [7.858296711223292]
政治外の評価では、力学に影響を及ぼし、未知の行動ポリシーによって使用される観測されていない変数が存在する可能性がある。
我々は、これらの観測されていない共同設立者に対する感度を有限の地平線で評価するために、最悪のケース境界を開発する。
頑健なMDPを持つモデルベースアプローチは、動的にドメイン知識を活用することにより、よりシャープな下位境界を与えることを示す。
論文 参考訳(メタデータ) (2022-04-02T23:40:15Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Projected State-action Balancing Weights for Offline Reinforcement
Learning [9.732863739456034]
本稿では,潜在的に異なるポリシから生成された事前収集データに基づいて,対象ポリシーの価値を推定することに焦点を当てる。
政策値推定のための状態-作用バランスウェイトを概算した新しい推定器を提案する。
数値実験により提案した推定器の性能を実証した。
論文 参考訳(メタデータ) (2021-09-10T03:00:44Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。