論文の概要: Off-policy Policy Evaluation For Sequential Decisions Under Unobserved
Confounding
- arxiv url: http://arxiv.org/abs/2003.05623v1
- Date: Thu, 12 Mar 2020 05:20:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 13:46:05.904474
- Title: Off-policy Policy Evaluation For Sequential Decisions Under Unobserved
Confounding
- Title(参考訳): 非オブザーブド・コンファウンデーション下の逐次決定に対するオフポリシー政策評価
- Authors: Hongseok Namkoong, Ramtin Keramati, Steve Yadlowsky, Emma Brunskill
- Abstract要約: 観測不能条件下でのOPE手法のロバスト性を評価する。
また,OPE法に偏りが強い場合も少ないことが示唆された。
最悪ケース境界の計算に有効な損失最小化手法を提案する。
- 参考スコア(独自算出の注目度): 33.58862183373374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When observed decisions depend only on observed features, off-policy policy
evaluation (OPE) methods for sequential decision making problems can estimate
the performance of evaluation policies before deploying them. This assumption
is frequently violated due to unobserved confounders, unrecorded variables that
impact both the decisions and their outcomes. We assess robustness of OPE
methods under unobserved confounding by developing worst-case bounds on the
performance of an evaluation policy. When unobserved confounders can affect
every decision in an episode, we demonstrate that even small amounts of
per-decision confounding can heavily bias OPE methods. Fortunately, in a number
of important settings found in healthcare, policy-making, operations, and
technology, unobserved confounders may primarily affect only one of the many
decisions made. Under this less pessimistic model of one-decision confounding,
we propose an efficient loss-minimization-based procedure for computing
worst-case bounds, and prove its statistical consistency. On two simulated
healthcare examples---management of sepsis patients and developmental
interventions for autistic children---where this is a reasonable model of
confounding, we demonstrate that our method invalidates non-robust results and
provides meaningful certificates of robustness, allowing reliable selection of
policies even under unobserved confounding.
- Abstract(参考訳): 観察された決定が観察された特徴のみに依存する場合、逐次的な意思決定問題に対する外部政策評価(OPE)手法は、それらをデプロイする前に評価ポリシーのパフォーマンスを推定することができる。
この仮定は、観察されていない共同設立者、決定と結果の両方に影響を及ぼす未記録の変数によってしばしば違反される。
評価方針の性能に関する最悪のケース境界を発達させることにより, 観測不能な一致下でのope法のロバスト性を評価する。
観察されていない共同ファウンダーがエピソードのすべての決定に影響を及ぼすことができる場合、たとえ少数の意思決定者でもOPEメソッドに偏りがあることを実証します。
幸いなことに、ヘルスケア、政策立案、オペレーション、テクノロジーで見られる多くの重要な設定において、観察されていない共同ファウンダーは、主に多くの決定のうちの1つにのみ影響する可能性がある。
この悲観的でない一決定共起モデルの下で、最悪のケース境界を計算するための効率的な損失最小化に基づく手順を提案し、その統計的整合性を証明する。
自閉症児に対する敗血症患者の管理と発達的介入の2つの模擬医療例について,本手法が障害のない結果の無効化,堅牢性の有意義な証明を提供することを実証した。
関連論文リスト
- Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Predictive Performance Comparison of Decision Policies Under Confounding [32.21041697921289]
そこで本稿では, 意思決定ポリシーの予測性能を, 様々な現代的な識別手法で比較する手法を提案する。
我々の手法の鍵は、政策比較において安全に無視できる不確実性領域が存在するという洞察である。
論文 参考訳(メタデータ) (2024-04-01T01:27:07Z) - Explaining by Imitating: Understanding Decisions by Interpretable Policy
Learning [72.80902932543474]
観察されたデータから人間の行動を理解することは、意思決定における透明性と説明責任にとって重要である。
意思決定者の方針をモデル化することが困難である医療などの現実的な設定を考えてみましょう。
本稿では, 設計による透明性の向上, 部分観測可能性の確保, 完全にオフラインで動作可能なデータ駆動型意思決定行動の表現を提案する。
論文 参考訳(メタデータ) (2023-10-28T13:06:14Z) - Causal Inference under Data Restrictions [0.0]
この論文は、不確実性とデータ制限の下での現代の因果推論に焦点を当てている。
これには、ネオアジュバント臨床試験、分散データネットワーク、堅牢な個別化意思決定へのアプリケーションが含まれる。
論文 参考訳(メタデータ) (2023-01-20T20:14:32Z) - Model-Free and Model-Based Policy Evaluation when Causality is Uncertain [7.858296711223292]
政治外の評価では、力学に影響を及ぼし、未知の行動ポリシーによって使用される観測されていない変数が存在する可能性がある。
我々は、これらの観測されていない共同設立者に対する感度を有限の地平線で評価するために、最悪のケース境界を開発する。
頑健なMDPを持つモデルベースアプローチは、動的にドメイン知識を活用することにより、よりシャープな下位境界を与えることを示す。
論文 参考訳(メタデータ) (2022-04-02T23:40:15Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Identifying Causal-Effect Inference Failure with Uncertainty-Aware
Models [41.53326337725239]
本稿では,不確実性推定を最先端のニューラルネットワーク手法のクラスに統合する実践的アプローチを提案する。
提案手法は,高次元データに共通する「非オーバーラップ」の状況に優雅に対処できることを示す。
正確なモデリングの不確実性は、過度に自信を持ち、潜在的に有害なレコメンデーションを与えるのを防ぐことができる。
論文 参考訳(メタデータ) (2020-07-01T00:37:41Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。