論文の概要: Kernel Conditional Moment Constraints for Confounding Robust Inference
- arxiv url: http://arxiv.org/abs/2302.13348v2
- Date: Thu, 14 Sep 2023 17:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 19:30:41.513099
- Title: Kernel Conditional Moment Constraints for Confounding Robust Inference
- Title(参考訳): 境界ロバスト推論のためのカーネル条件モーメント制約
- Authors: Kei Ishikawa, Niao He
- Abstract要約: 本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
政策値のシャープな下限を提供する一般推定器を提案する。
- 参考スコア(独自算出の注目度): 22.816690686310714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study policy evaluation of offline contextual bandits subject to
unobserved confounders. Sensitivity analysis methods are commonly used to
estimate the policy value under the worst-case confounding over a given
uncertainty set. However, existing work often resorts to some coarse relaxation
of the uncertainty set for the sake of tractability, leading to overly
conservative estimation of the policy value. In this paper, we propose a
general estimator that provides a sharp lower bound of the policy value. It can
be shown that our estimator contains the recently proposed sharp estimator by
Dorn and Guo (2022) as a special case, and our method enables a novel extension
of the classical marginal sensitivity model using f-divergence. To construct
our estimator, we leverage the kernel method to obtain a tractable
approximation to the conditional moment constraints, which traditional
non-sharp estimators failed to take into account. In the theoretical analysis,
we provide a condition for the choice of the kernel which guarantees no
specification error that biases the lower bound estimation. Furthermore, we
provide consistency guarantees of policy evaluation and learning. In the
experiments with synthetic and real-world data, we demonstrate the
effectiveness of the proposed method.
- Abstract(参考訳): 本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
感度分析法は、与えられた不確実性セット上での最悪の場合のポリシー値の推定によく用いられる。
しかし、既存の作業はしばしば、トラクタビリティのために設定された不確実性の粗い緩和に頼り、政策価値を過度に保守的に見積もる。
本稿では,政策価値の鋭い下限を提供する一般的な推定器を提案する。
この推定器は,最近提案されているdorn and guo (2022) によるシャープ推定器を特別に含むことを示し,f-divergence を用いた古典的辺縁感度モデルの新たな拡張を可能にする。
提案手法は,従来の非シャープ推定器が考慮しなかった条件付きモーメント制約に対するトラクタブル近似を求めるために,カーネル手法を利用する。
理論的解析では、下位境界推定をバイアスする仕様誤差を保証しないカーネルの選択条件を提供する。
さらに,政策評価と学習の整合性を保証する。
合成および実世界のデータを用いた実験では,提案手法の有効性を示す。
関連論文リスト
- A Convex Framework for Confounding Robust Inference [21.918894096307294]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
本稿では,凸プログラミングを用いてポリシー値のシャープな下限を推定する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-09-21T19:45:37Z) - Conformal Off-Policy Prediction in Contextual Bandits [54.67508891852636]
コンフォーマルなオフ政治予測は、新しい目標ポリシーの下で、結果に対する信頼できる予測間隔を出力することができる。
理論上の有限サンプル保証は、標準的な文脈的バンディットの設定を超える追加の仮定をすることなく提供する。
論文 参考訳(メタデータ) (2022-06-09T10:39:33Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Statistical Bootstrapping for Uncertainty Estimation in Off-Policy
Evaluation [38.31971190670345]
本研究は,政策の真の価値を校正した信頼区間を生成する手段として,統計的ブートストラップの可能性について検討する。
本研究では, 連続制御環境や小規模なデータ体制など, 様々な条件下で精度の高い信頼区間が得られることを示す。
論文 参考訳(メタデータ) (2020-07-27T14:49:22Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。