論文の概要: An Instrumental Variable Approach to Confounded Off-Policy Evaluation
- arxiv url: http://arxiv.org/abs/2212.14468v1
- Date: Thu, 29 Dec 2022 22:06:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:03:48.492034
- Title: An Instrumental Variable Approach to Confounded Off-Policy Evaluation
- Title(参考訳): オフ・ポリシー評価のためのインストゥルメンタル・変数アプローチ
- Authors: Yang Xu, Jin Zhu, Chengchun Shi, Shikai Luo, and Rui Song
- Abstract要約: オフ政治評価(Off-policy Evaluation、OPE)は、目標政策の回帰を推定する手法である。
本稿では,マルコフ決定過程における一貫した OPE のインストゥルメンタル変数 (IV) に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 11.785128674216903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation (OPE) is a method for estimating the return of a target
policy using some pre-collected observational data generated by a potentially
different behavior policy. In some cases, there may be unmeasured variables
that can confound the action-reward or action-next-state relationships,
rendering many existing OPE approaches ineffective. This paper develops an
instrumental variable (IV)-based method for consistent OPE in confounded Markov
decision processes (MDPs). Similar to single-stage decision making, we show
that IV enables us to correctly identify the target policy's value in infinite
horizon settings as well. Furthermore, we propose an efficient and robust value
estimator and illustrate its effectiveness through extensive simulations and
analysis of real data from a world-leading short-video platform.
- Abstract(参考訳): オフ政治評価(Off-policy Evaluation、OPE)は、潜在的に異なる行動ポリシーによって生成された事前収集された観測データを用いて、目標政策の回帰を推定する手法である。
場合によっては、アクション・リワードやアクション・ネスト状態の関係を曖昧にし、既存のOPEアプローチを効果的にしない変数が存在する。
本稿では,マルコフ決定過程(MDPs)において,一貫したOPEのインストゥルメンタル変数(IV)に基づく手法を提案する。
単一段階の意思決定と同様に、IVにより、無限の地平線設定でもターゲットポリシーの価値を正しく識別できることを示す。
さらに,効率良くロバストな価値推定器を提案し,世界有数のショートビデオプラットフォームからの実データを広範囲にシミュレーションし,分析することによりその効果を示す。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Off-Policy Confidence Interval Estimation with Confounded Markov
Decision Process [14.828039846764549]
システム力学における動作の影響を媒介する補助変数によっては、マルコフ決定過程において対象ポリシーの値が識別可能であることを示す。
提案手法は, ライドシェアリング会社から得られた理論的結果, シミュレーション, 実データによって正当化される。
論文 参考訳(メタデータ) (2022-02-22T00:03:48Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。