論文の概要: Predictive Performance Comparison of Decision Policies Under Confounding
- arxiv url: http://arxiv.org/abs/2404.00848v1
- Date: Mon, 1 Apr 2024 01:27:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 01:31:23.565582
- Title: Predictive Performance Comparison of Decision Policies Under Confounding
- Title(参考訳): コンバウンディングにおける決定政策の予測性能比較
- Authors: Luke Guerdan, Amanda Coston, Kenneth Holstein, Zhiwei Steven Wu,
- Abstract要約: そこで本稿では, 意思決定ポリシーの予測性能を, 様々な現代的な識別手法で比較する手法を提案する。
我々の手法の鍵は、政策比較において安全に無視できる不確実性領域が存在するという洞察である。
- 参考スコア(独自算出の注目度): 32.21041697921289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predictive models are often introduced to decision-making tasks under the rationale that they improve performance over an existing decision-making policy. However, it is challenging to compare predictive performance against an existing decision-making policy that is generally under-specified and dependent on unobservable factors. These sources of uncertainty are often addressed in practice by making strong assumptions about the data-generating mechanism. In this work, we propose a method to compare the predictive performance of decision policies under a variety of modern identification approaches from the causal inference and off-policy evaluation literatures (e.g., instrumental variable, marginal sensitivity model, proximal variable). Key to our method is the insight that there are regions of uncertainty that we can safely ignore in the policy comparison. We develop a practical approach for finite-sample estimation of regret intervals under no assumptions on the parametric form of the status quo policy. We verify our framework theoretically and via synthetic data experiments. We conclude with a real-world application using our framework to support a pre-deployment evaluation of a proposed modification to a healthcare enrollment policy.
- Abstract(参考訳): 予測モデルは、しばしば既存の意思決定ポリシーよりもパフォーマンスを向上させるという根拠の下で意思決定タスクに導入される。
しかし, 予測性能を, 未特定であり, 観測不可能な要因に依存している既存の意思決定方針と比較することは困難である。
これらの不確実性の源は、しばしばデータ生成機構について強い仮定をすることで、現実的に対処される。
本研究では, 因果推論と非政治評価文献(例えば, 器楽変数, 限界感度モデル, 近位変数)から, 多様な近代的識別手法による意思決定ポリシーの予測性能を比較する手法を提案する。
我々の手法の鍵は、政策比較において安全に無視できる不確実性領域が存在するという洞察である。
本研究では, 現状クオポリシーのパラメトリック形式を仮定せずに, 後悔区間の有限サンプル推定のための実践的アプローチを開発する。
理論的および合成データ実験により,我々の枠組みを検証した。
我々は、我々の枠組みを用いた実世界のアプリケーションを用いて、医療機関の入学方針への修正案の事前配備評価を支援する。
関連論文リスト
- Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Kernel Conditional Moment Constraints for Confounding Robust Inference [22.816690686310714]
本研究では,非保守的共同設立者を対象に,オフラインの文脈的盗賊の政策評価について検討した。
政策値のシャープな下限を提供する一般推定器を提案する。
論文 参考訳(メタデータ) (2023-02-26T16:44:13Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Offline Policy Selection under Uncertainty [113.57441913299868]
我々は、オフラインポリシーの選択を、一定の経験データセットを与えられた政策予測のセットよりも学習の選好とみなす。
政策価値に対する信念に対する完全な分布へのアクセスは、より幅広い下流評価指標の下でより柔軟な選択アルゴリズムを可能にする。
BayesDICEが任意の下流ポリシー選択メトリックに関してポリシーのランク付けにどのように使用されるかを示します。
論文 参考訳(メタデータ) (2020-12-12T23:09:21Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - A Practical Guide of Off-Policy Evaluation for Bandit Problems [13.607327477092877]
オフ政治評価(OPE)とは、異なる政策によって得られたサンプルから対象政策の価値を推定する問題である。
既存のOPE推定器に基づくメタアルゴリズムを提案する。
実験において,人工的およびオープンな実世界のデータセットを用いて提案する概念について検討する。
論文 参考訳(メタデータ) (2020-10-23T15:11:19Z) - Distributionally Robust Batch Contextual Bandits [20.667213458836734]
歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。
既存の文献は、学習方針が展開される将来の環境が過去の環境と同じである、という決定的な前提に基づいている。
本稿では、この仮定を引き上げ、不完全な観測データを用いて、分布的に堅牢なポリシーを学習することを目的とする。
論文 参考訳(メタデータ) (2020-06-10T03:11:40Z) - Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。
適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。
本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文 参考訳(メタデータ) (2020-02-12T18:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。