論文の概要: Off-Policy Evaluation Under Nonignorable Missing Data
- arxiv url: http://arxiv.org/abs/2507.06961v1
- Date: Wed, 09 Jul 2025 15:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.649768
- Title: Off-Policy Evaluation Under Nonignorable Missing Data
- Title(参考訳): 無視不可能データに基づくオフポリティ評価
- Authors: Han Wang, Yang Xu, Wenbin Lu, Rui Song,
- Abstract要約: Off-Policy Evaluation (OPE)は、潜在的に異なるポリシーから収集されたオフラインデータを用いて、ターゲットポリシーの価値を見積もることを目的としている。
本稿では,データ不足がOPE結果に与える影響について検討する。
逆確率重み付き値推定器を提案し,不確実性を定量化するために統計的推測を行う。
- 参考スコア(独自算出の注目度): 17.181874287484636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-Policy Evaluation (OPE) aims to estimate the value of a target policy using offline data collected from potentially different policies. In real-world applications, however, logged data often suffers from missingness. While OPE has been extensively studied in the literature, a theoretical understanding of how missing data affects OPE results remains unclear. In this paper, we investigate OPE in the presence of monotone missingness and theoretically demonstrate that the value estimates remain unbiased under ignorable missingness but can be biased under nonignorable (informative) missingness. To retain the consistency of value estimation, we propose an inverse probability weighted value estimator and conduct statistical inference to quantify the uncertainty of the estimates. Through a series of numerical experiments, we empirically demonstrate that our proposed estimator yields a more reliable value inference under missing data.
- Abstract(参考訳): Off-Policy Evaluation (OPE)は、潜在的に異なるポリシーから収集されたオフラインデータを用いて、ターゲットポリシーの価値を見積もることを目的としている。
しかし、実世界のアプリケーションでは、ログ化されたデータは欠落に悩まされることが多い。
OPEは文献で広く研究されているが、欠落したデータがOPEの結果に与える影響に関する理論的理解はいまだに不明である。
本稿では,単調な欠損の存在下でのOPEについて検討し,その評価値が無視不能な欠損下では非バイアスであり,非無視的(情報的)な欠損下では偏りが生じることを理論的に証明する。
値推定の整合性を維持するために,逆確率重み付き値推定器を提案し,統計的推測を行い,推定の不確かさを定量化する。
一連の数値実験を通して,提案した推定器が欠落データの下でより信頼性の高い値推定を行うことを示す。
関連論文リスト
- Enhancing accuracy of uncertainty estimation in appearance-based gaze tracking with probabilistic evaluation and calibration [13.564919425738163]
外見に基づく視線追跡の不確実性は、信頼性の高い下流アプリケーションを保証するために重要である。
現在の不確実性認識アプローチでは、トレーニングデータセット内の分布に従って不確実性を取得する確率論的モデルを採用している。
トレーニングされたモデルの不確かさを推定する際のバイアスを軽減するために,確率校正に基づく補正戦略を提案する。
論文 参考訳(メタデータ) (2025-01-24T19:33:55Z) - Uncertainty in Graph Contrastive Learning with Bayesian Neural Networks [101.56637264703058]
変分ベイズニューラルネットワークは不確実性推定を改善するために有効であることを示す。
比較学習における不確実性の新たな尺度を提案するが、これは異なる正のサンプルによる可能性の相違に基づくものである。
論文 参考訳(メタデータ) (2023-11-30T22:32:24Z) - Label Shift Estimators for Non-Ignorable Missing Data [2.605549784939959]
ランダム変数 Y の平均を非無視的欠損(すなわち、不足メカニズムが Y に依存する場合)で推定する問題を考察する。
当社のアプローチは、無視できないアプローチと無視できないアプローチを比較して、大規模な健康調査を用いて、病気の有病率を推定するために使用します。
論文 参考訳(メタデータ) (2023-10-27T16:50:13Z) - To Predict or to Reject: Causal Effect Estimation with Uncertainty on
Networked Data [36.31936265985164]
GraphDKLは、グラフによる因果効果推定を行う際に、肯定的仮定違反に対処する最初のフレームワークである。
本研究では,ネットワークデータに対する不確実性を考慮した因果効果推定における提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-09-15T05:25:43Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Off-Policy Evaluation with Out-of-Sample Guarantees [21.527138355664174]
過去の観測データを用いて意思決定ポリシーの性能を評価することの問題点を考察する。
本研究では,損失分布全体について,有限サンプルのカバレッジ保証でそのような推論を導出可能であることを示す。
この評価方法は、特定の信頼可能なモデル仮定の範囲で観測データを用いてポリシーの性能を認証するために用いられる。
論文 参考訳(メタデータ) (2023-01-20T15:56:39Z) - DEUP: Direct Epistemic Uncertainty Prediction [56.087230230128185]
認識の不確実性は、学習者の知識の欠如によるサンプル外の予測エラーの一部である。
一般化誤差の予測を学習し, aleatoric uncertaintyの推定を減算することで, 認識的不確かさを直接推定する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T23:50:35Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - The Aleatoric Uncertainty Estimation Using a Separate Formulation with
Virtual Residuals [51.71066839337174]
既存の手法では、ターゲット推定における誤差を定量化できるが、過小評価する傾向がある。
本稿では,信号とその不確かさを推定するための新たな分離可能な定式化を提案し,オーバーフィッティングの影響を回避した。
提案手法は信号および不確実性推定のための最先端技術より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-03T12:11:27Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。