論文の概要: Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning
- arxiv url: http://arxiv.org/abs/2202.09667v1
- Date: Sat, 19 Feb 2022 20:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 08:46:43.153997
- Title: Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning
- Title(参考訳): 二重ロバスト分布型オフポリティ評価と学習
- Authors: Nathan Kallus, Xiaojie Mao, Kaiwen Wang, Zhengyuan Zhou
- Abstract要約: オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 59.02006924867438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy evaluation and learning (OPE/L) use offline observational data to
make better decisions, which is crucial in applications where experimentation
is necessarily limited. OPE/L is nonetheless sensitive to discrepancies between
the data-generating environment and that where policies are deployed. Recent
work proposed distributionally robust OPE/L (DROPE/L) to remedy this, but the
proposal relies on inverse-propensity weighting, whose regret rates may
deteriorate if propensities are estimated and whose variance is suboptimal even
if not. For vanilla OPE/L, this is solved by doubly robust (DR) methods, but
they do not naturally extend to the more complex DROPE/L, which involves a
worst-case expectation. In this paper, we propose the first DR algorithms for
DROPE/L with KL-divergence uncertainty sets. For evaluation, we propose
Localized Doubly Robust DROPE (LDR$^2$OPE) and prove its semiparametric
efficiency under weak product rates conditions. Notably, thanks to a
localization technique, LDR$^2$OPE only requires fitting a small number of
regressions, just like DR methods for vanilla OPE. For learning, we propose
Continuum Doubly Robust DROPL (CDR$^2$OPL) and show that, under a product rate
condition involving a continuum of regressions, it enjoys a fast regret rate of
$\mathcal{O}(N^{-1/2})$ even when unknown propensities are nonparametrically
estimated. We further extend our results to general $f$-divergence uncertainty
sets. We illustrate the advantage of our algorithms in simulations.
- Abstract(参考訳): off-policy evaluation and learning (ope/l) はオフラインの観測データを使用してより良い意思決定を行う。
OPE/Lは、データ生成環境とポリシーがデプロイされる場所との相違に敏感である。
最近の研究では、分布的にロバストなope/l (drope/l) がこの問題に対処するために提案されているが、提案は逆プロペンシティ重み付けに依拠している。
バニラ OPE/L の場合、これは二重堅牢 (DR) 法で解決されるが、最悪の場合の予測を含むより複雑な DROPE/L に自然に拡張されるわけではない。
本稿では,KL分割不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
評価のために,局所的な2重ロバストなdrope (ldr$^2$ope) を提案し,その半パラメトリック効率を弱い製品率条件下で証明する。
特に、ローカライズ技術のおかげで、LDR$^2$OPEは、バニラOPEのDRメソッドのように、少数のレグレッションのみを適合させる必要がある。
学習のために,CDR$^2$OPL (Continuum Doubly Robust DROPL) を提案し,回帰の継続を含む積率条件の下では,未知の正則性が非パラメトリックに推定された場合でも,高速な後悔率$\mathcal{O}(N^{-1/2}) を満足することを示す。
さらに、我々の結果を一般の$f$-divergence不確実集合に拡張する。
シミュレーションにおけるアルゴリズムの利点を説明します。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Double Cross-fit Doubly Robust Estimators: Beyond Series Regression [13.595329873577839]
クロスフィットの頑健な推定器は、好意的な構造に依存しないエラー保証のため、因果推論で人気を博している。
トレーニングデータを分割し、独立したサンプルにニュアンス関数推定器をアンダースムースすることにより、DCDR (Double Cross-fit Duubly robust) 推定器を構築することができる。
我々は、非平滑なDCDR推定器がより遅い$sqrtn$中心極限を満たすことを示し、非$sqrtn$状態においても推論が可能であることを示す。
論文 参考訳(メタデータ) (2024-03-22T12:59:03Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Doubly Robust Proximal Causal Learning for Continuous Treatments [56.05592840537398]
本稿では,カーネルベースの2倍頑健な因果学習推定器を提案する。
オラクル形式は影響関数の一貫した近似であることを示す。
次に、平均二乗誤差の観点から総合収束解析を行う。
論文 参考訳(メタデータ) (2023-09-22T12:18:53Z) - Off-Policy Risk Assessment in Markov Decision Processes [15.225153671736201]
我々はマルコフ決定過程(MDPs)におけるリターンのCDFのための最初の2倍ロバスト(DR)推定器を開発する。
この推定器は、分散を著しく少なくし、モデルが十分に特定されたとき、クレーマー・ラオ分散の低い境界を達成する。
オフポリチックCDFとリスク推定のための最初のミニマックス下限を導出する。
論文 参考訳(メタデータ) (2022-09-21T15:40:59Z) - StableDR: Stabilized Doubly Robust Learning for Recommendation on Data
Missing Not at Random [16.700598755439685]
二重ロバスト (DR) 法は不安定であり, 偏差, 分散, 一般化が極めて小さい。
本稿では,外挿への依存度を弱める2重頑健(StableDR)学習手法を提案する。
さらに,本論文では,不規則性,妥当性,予測モデルを周期的に更新する新しいStableDRの学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-10T07:04:53Z) - Doubly-Robust Estimation for Unbiased Learning-to-Rank from
Position-Biased Click Feedback [13.579420996461439]
IPS推定の代わりにランク毎の待遇を期待する新しいDR推定器を提案する。
我々の結果は、最適な性能で収束するためには、桁違いに少ないデータポイントを必要とすることを示唆している。
論文 参考訳(メタデータ) (2022-03-31T15:38:25Z) - Enhanced Doubly Robust Learning for Debiasing Post-click Conversion Rate
Estimation [29.27760413892272]
クリック後の変換は、ユーザの好みを示す強いシグナルであり、レコメンデーションシステムを構築する上で有益である。
現在、ほとんどの既存の手法は、対実学習を利用してレコメンデーションシステムを破壊している。
本稿では,MRDR推定のための新しい二重学習手法を提案し,誤差計算を一般的なCVR推定に変換する。
論文 参考訳(メタデータ) (2021-05-28T06:59:49Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。