論文の概要: Off-Policy Evaluation in Partially Observed Markov Decision Processes
under Sequential Ignorability
- arxiv url: http://arxiv.org/abs/2110.12343v4
- Date: Tue, 9 May 2023 04:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 20:59:07.596485
- Title: Off-Policy Evaluation in Partially Observed Markov Decision Processes
under Sequential Ignorability
- Title(参考訳): 逐次無知下における部分的マルコフ決定過程のオフポリシー評価
- Authors: Yuchen Hu and Stefan Wager
- Abstract要約: 逐次的無知下での動的処理規則の非政治的評価を考察する。
我々は,POMDPにおける非政治評価が,(十分に観察された)マルコフ決定過程における非政治評価よりも厳密であることを示す。
- 参考スコア(独自算出の注目度): 8.388782503421504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider off-policy evaluation of dynamic treatment rules under sequential
ignorability, given an assumption that the underlying system can be modeled as
a partially observed Markov decision process (POMDP). We propose an estimator,
partial history importance weighting, and show that it can consistently
estimate the stationary mean rewards of a target policy given long enough draws
from the behavior policy. We provide an upper bound on its error that decays
polynomially in the number of observations (i.e., the number of trajectories
times their length), with an exponent that depends on the overlap of the target
and behavior policies, and on the mixing time of the underlying system.
Furthermore, we show that this rate of convergence is minimax given only our
assumptions on mixing and overlap. Our results establish that off-policy
evaluation in POMDPs is strictly harder than off-policy evaluation in (fully
observed) Markov decision processes, but strictly easier than model-free
off-policy evaluation.
- Abstract(参考訳): 本研究は,マルコフ決定過程(POMDP)として基礎システムをモデル化できるという仮定を前提として,逐次的無知下での動的処理規則の非政治的評価を考察する。
そこで本研究では,行動方針から十分な距離を引いた目標政策の定常平均報酬を連続的に推定できることを示し,その重み付けによる部分的履歴の重み付けを提案する。
対象と行動方針の重複に依存する指数と、基礎となるシステムの混合時間に依存する指数とにより、その誤差は観測回数(すなわち、軌道の数がその長さの倍数)で多項式的に減衰する。
さらに, この収束速度は, 混合と重なりに関する仮定だけで最小値であることを示す。
以上より,pomdpsにおけるオフポリシー評価は(完全に観察された)マルコフ決定過程においてオフポリシー評価よりも厳格に難しいが,モデルフリーのオフポリシー評価よりは厳格に容易であることが判明した。
関連論文リスト
- Off-Policy Evaluation in Markov Decision Processes under Weak
Distributional Overlap [5.0401589279256065]
本稿では,マルコフ決定過程(MDP)における非政治的評価の課題を再検討する。
本稿では,この環境での良好な性能を期待できる2重頑健性(TDR)推定器のクラスを紹介する。
論文 参考訳(メタデータ) (2024-02-13T03:55:56Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Model-Free and Model-Based Policy Evaluation when Causality is Uncertain [7.858296711223292]
政治外の評価では、力学に影響を及ぼし、未知の行動ポリシーによって使用される観測されていない変数が存在する可能性がある。
我々は、これらの観測されていない共同設立者に対する感度を有限の地平線で評価するために、最悪のケース境界を開発する。
頑健なMDPを持つモデルベースアプローチは、動的にドメイン知識を活用することにより、よりシャープな下位境界を与えることを示す。
論文 参考訳(メタデータ) (2022-04-02T23:40:15Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Projected State-action Balancing Weights for Offline Reinforcement
Learning [9.732863739456034]
本稿では,潜在的に異なるポリシから生成された事前収集データに基づいて,対象ポリシーの価値を推定することに焦点を当てる。
政策値推定のための状態-作用バランスウェイトを概算した新しい推定器を提案する。
数値実験により提案した推定器の性能を実証した。
論文 参考訳(メタデータ) (2021-09-10T03:00:44Z) - Universal Off-Policy Evaluation [64.02853483874334]
ユニバーサルオフ政治推定器(UnO)への第一歩を踏み出す
我々は, 平均, 分散, 分位数/中間数, 分位数範囲, cvar, および累積分布全体の推定と同時結合に uno を用いる。
論文 参考訳(メタデータ) (2021-04-26T18:54:31Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。