論文の概要: Off-Policy Evaluation and Learning for Survival Outcomes under Censoring
- arxiv url: http://arxiv.org/abs/2603.22900v1
- Date: Tue, 24 Mar 2026 07:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.365045
- Title: Off-Policy Evaluation and Learning for Survival Outcomes under Censoring
- Title(参考訳): センサによる生存率評価と学習
- Authors: Kohsuke Kubota, Mitsuhiro Takahashi, Yuta Saito,
- Abstract要約: オフ・ポリティ・アセスメント(OPE)はそのような意思決定ポリシーを評価するための強力なフレームワークを提供する。
OPEとOPL(Off-Policy Learning)のための新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.67394295485524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing survival outcomes, such as patient survival or customer retention, is a critical objective in data-driven decision-making. Off-Policy Evaluation~(OPE) provides a powerful framework for assessing such decision-making policies using logged data alone, without the need for costly or risky online experiments in high-stakes applications. However, typical estimators are not designed to handle right-censored survival outcomes, as they ignore unobserved survival times beyond the censoring time, leading to systematic underestimation of the true policy performance. To address this issue, we propose a novel framework for OPE and Off-Policy Learning~(OPL) tailored for survival outcomes under censoring. Specifically, we introduce IPCW-IPS and IPCW-DR, which employ the Inverse Probability of Censoring Weighting technique to explicitly deal with censoring bias. We theoretically establish that our estimators are unbiased and that IPCW-DR achieves double robustness, ensuring consistency if either the propensity score or the outcome model is correct. Furthermore, we extend this framework to constrained OPL to optimize policy value under budget constraints. We demonstrate the effectiveness of our proposed methods through simulation studies and illustrate their practical impacts using public real-world data for both evaluation and learning tasks.
- Abstract(参考訳): 患者生存率や顧客維持率などの生存率の最適化は、データ駆動意思決定において重要な目標である。
Off-Policy Evaluation~(OPE)は、ログデータだけで意思決定ポリシーを評価するための強力なフレームワークを提供する。
しかし、典型的な推定者は、検閲時間を超えて観測されていない生存時間を無視し、真の政策パフォーマンスを体系的に過小評価するので、正しい検閲された生存時間を扱うように設計されていない。
この問題に対処するために,検閲下での生存目標に適したOPEとOff-Policy Learning~(OPL)の新たなフレームワークを提案する。
Inverse Probability of Censoring Weighting(ICCW-IPS)技術を用いて、検閲バイアスを明示的に処理するICCW-IPS(ICCW-DR)とICCW-DR(ICCW-DR)を導入する。
理論的には、推定値が偏りがなく、IPCW-DRが二重頑健性を実現し、正当性スコアまたは結果モデルが正しい場合の一貫性を保証する。
さらに,この枠組みを制約付きOPLに拡張し,予算制約下での政策価値を最適化する。
提案手法の有効性をシミュレーション研究により実証し,評価と学習の両面での公開実世界のデータを用いて実効性を示す。
関連論文リスト
- DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects [0.0]
オフ政治評価(OPE)とオフ政治学習(OPL)は、歴史的データを利用して対象の政策を評価し最適化する。
複数の時間点からの文脈情報を利用して、報酬をラグと現在の効果に分解する新しい推定器であるラグとカレントエフェクトに非政治評価/学習を分解するDOLCEを提案する。
実験の結果,DOLCE は OPE と OPL の大幅な改善を実現していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-02T02:32:28Z) - Efficient and Sharp Off-Policy Learning under Unobserved Confounding [25.068617118126824]
本研究では,未観測のコンファウンディングを伴うシナリオにおいて,個人化された非政治学習のための新しい手法を開発する。
本手法は,未観測のコンバウンディングが問題となるような意思決定に極めて有用である。
論文 参考訳(メタデータ) (2025-02-18T16:42:24Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Improved Policy Evaluation for Randomized Trials of Algorithmic Resource
Allocation [54.72195809248172]
提案する新しい概念を応用した新しい推定器を提案する。
我々は,このような推定器が,サンプル手段に基づく一般的な推定器よりも精度が高いことを理論的に証明した。
論文 参考訳(メタデータ) (2023-02-06T05:17:22Z) - Doubly Robust Interval Estimation for Optimal Policy Evaluation in Online Learning [8.736154600219685]
オンライン学習における政策評価が注目を集めている。
しかし、オンライン環境で生成された依存データのため、このような問題は特に困難である。
本研究では,オンライン学習における最適ポリシーに基づいて,2倍頑健区間推定法(DREAM)を開発した。
論文 参考訳(メタデータ) (2021-10-29T02:38:54Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。