論文の概要: A Minimax Learning Approach to Off-Policy Evaluation in Partially
Observable Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2111.06784v1
- Date: Fri, 12 Nov 2021 15:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 13:27:42.116379
- Title: A Minimax Learning Approach to Off-Policy Evaluation in Partially
Observable Markov Decision Processes
- Title(参考訳): 部分可観測マルコフ決定過程におけるオフポリシー評価のためのミニマックス学習手法
- Authors: Chengchun Shi, Masatoshi Uehara and Nan Jiang
- Abstract要約: 部分観測可能なマルコフ決定過程(POMDP)におけるオフ・ポリティクス評価(OPE)の検討
既存の手法は、計測されていない共同創設者の存在における大きなバイアスや、連続的あるいは大規模な観測/状態空間の設定における大きなばらつきに悩まされる。
提案手法は,POMDPにおいて,目的ポリシー値と観測データ分布をリンクするブリッジ関数を導入することで,提案手法を提案する。
- 参考スコア(独自算出の注目度): 31.215206208622728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider off-policy evaluation (OPE) in Partially Observable Markov
Decision Processes (POMDPs), where the evaluation policy depends only on
observable variables and the behavior policy depends on unobservable latent
variables. Existing works either assume no unmeasured confounders, or focus on
settings where both the observation and the state spaces are tabular. As such,
these methods suffer from either a large bias in the presence of unmeasured
confounders, or a large variance in settings with continuous or large
observation/state spaces. In this work, we first propose novel identification
methods for OPE in POMDPs with latent confounders, by introducing bridge
functions that link the target policy's value and the observed data
distribution. In fully-observable MDPs, these bridge functions reduce to the
familiar value functions and marginal density ratios between the evaluation and
the behavior policies. We next propose minimax estimation methods for learning
these bridge functions. Our proposal permits general function approximation and
is thus applicable to settings with continuous or large observation/state
spaces. Finally, we construct three estimators based on these estimated bridge
functions, corresponding to a value function-based estimator, a marginalized
importance sampling estimator, and a doubly-robust estimator. Their
nonasymptotic and asymptotic properties are investigated in detail.
- Abstract(参考訳): 我々は,部分可観測マルコフ決定プロセス (pomdps) において,評価方針は可観測変数のみに依存し,行動政策は可観測潜在変数に依存する。
既存の作業では、計測されていない共同創設者を前提とせず、観察と状態空間の両方が表向きな設定に集中する。
このように、これらの手法は、計測されていない共同創設者の存在における大きなバイアスや、連続的あるいは大規模な観測/状態空間の設定における大きなばらつきに悩まされる。
そこで本研究では,POMDP における OPE の新たな識別手法を提案し,対象ポリシー値と観測データ分布をリンクするブリッジ関数を導入する。
完全観測可能なMDPでは、これらのブリッジ関数は、評価と行動ポリシーの間の親しみやすい値関数と限界密度比に還元される。
次に,これらのブリッジ関数を学習するための最小推定法を提案する。
本提案は一般関数近似を許容し,連続的あるいは大規模観測/状態空間の設定に適用できる。
最後に,これらの推定橋梁関数に基づいて,値関数に基づく推定橋梁関数,限界化重要度サンプリング推定器,二重ロバスト推定器の3つの推定橋梁関数を構築した。
その非漸近性と漸近性は詳細に研究されている。
関連論文リスト
- RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Off-Policy Evaluation for Episodic Partially Observable Markov Decision
Processes under Non-Parametric Models [2.3411358616430435]
本研究では,連続状態を持つ部分観測可能マルコフ決定過程(POMDP)の非政治評価(OPE)問題について検討する。
最近提案された因果推論フレームワークに動機付けられ,政策価値を推定する非パラメトリック同定結果を開発した。
これは非パラメトリックモデルの下でのPOMDPにおけるOPEに対する最初の有限サンプル誤差である。
論文 参考訳(メタデータ) (2022-09-21T01:44:45Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - A Spectral Approach to Off-Policy Evaluation for POMDPs [8.613667867961034]
部分的に観察可能なマルコフ決定過程における非政治評価について考察する。
この問題の先行研究は、隠れ状態の1段階の観測可能プロキシに基づく因果同定戦略を用いている。
本研究では,スペクトル法と一段階のプロキシを過去と未来の両方に拡張することで,この要件を緩和する。
論文 参考訳(メタデータ) (2021-09-22T03:36:51Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Causal Inference Under Unmeasured Confounding With Negative Controls: A
Minimax Learning Approach [84.29777236590674]
すべての共同設立者が観察されず、代わりに負の制御が利用可能である場合の因果パラメータの推定について検討する。
最近の研究は、2つのいわゆるブリッジ関数による同定と効率的な推定を可能にする方法を示している。
論文 参考訳(メタデータ) (2021-03-25T17:59:19Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Neural Methods for Point-wise Dependency Estimation [129.93860669802046]
我々は,2つの結果が共起する確率を定量的に測定する点依存度(PD)の推定に焦点をあてる。
提案手法の有効性を,1)MI推定,2)自己教師付き表現学習,3)クロスモーダル検索タスクで示す。
論文 参考訳(メタデータ) (2020-06-09T23:26:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。