論文の概要: Deep Jump Learning for Off-Policy Evaluation in Continuous Treatment
Settings
- arxiv url: http://arxiv.org/abs/2010.15963v3
- Date: Fri, 5 Nov 2021 00:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 22:18:03.297393
- Title: Deep Jump Learning for Off-Policy Evaluation in Continuous Treatment
Settings
- Title(参考訳): 継続的治療におけるオフポリシー評価のためのディープジャンプ学習
- Authors: Hengrui Cai, Chengchun Shi, Rui Song, Wenbin Lu
- Abstract要約: パーソナライズド・フィニングなどの継続的治療におけるオフ・ポリティ・アセスメント(OPE)について検討した。
我々は,深層ジャンプ学習を用いたOPEの新しい推定法を開発した。
提案手法は, 理論的結果, シミュレーション, および Warfarin Dosing への真の応用によってさらに正当化される。
- 参考スコア(独自算出の注目度): 24.368802911819134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider off-policy evaluation (OPE) in continuous treatment settings,
such as personalized dose-finding. In OPE, one aims to estimate the mean
outcome under a new treatment decision rule using historical data generated by
a different decision rule. Most existing works on OPE focus on discrete
treatment settings. To handle continuous treatments, we develop a novel
estimation method for OPE using deep jump learning. The key ingredient of our
method lies in adaptively discretizing the treatment space using deep
discretization, by leveraging deep learning and multi-scale change point
detection. This allows us to apply existing OPE methods in discrete treatments
to handle continuous treatments. Our method is further justified by theoretical
results, simulations, and a real application to Warfarin Dosing.
- Abstract(参考訳): パーソナライズド・フィニングなどの継続的治療におけるオフ・ポリティ・アセスメント(OPE)について検討した。
OPEでは、異なる決定ルールによって生成された過去のデータを用いて、新しい処理決定ルールの下で平均結果を推定することを目的としている。
既存の作品の多くは、個別の処置設定に焦点を当てている。
連続的な処理を扱うために,深層ジャンプ学習を用いたOPEの新しい推定法を開発した。
本手法の重要な要素は,深層学習とマルチスケール変化点検出を活用し,深層離散化を用いて治療空間を適応的に判別することである。
これにより、連続的な処理を扱うために、個別の処理に既存の ope メソッドを適用できる。
本手法は, 理論的結果, シミュレーション, および Warfarin Dosing への応用によりさらに正当化される。
関連論文リスト
- Uncertainty-Aware Optimal Treatment Selection for Clinical Time Series [4.656302602746229]
本稿では,非現実的推定手法と不確実性定量化を組み合わせた新しい手法を提案する。
本手法は2つのシミュレーションデータセットを用いて検証し,1つは心血管系,もう1つはCOVID-19に焦点を当てた。
提案手法は, 異なる推定基準値にまたがって頑健な性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-11T13:56:25Z) - Continuous Treatment Effect Estimation Using Gradient Interpolation and
Kernel Smoothing [43.259723628010896]
個人を個別に標本化し,反現実的結果を推測する直接的アプローチを提唱する。
提案手法を5つのベンチマークで評価し,提案手法が6つの最先端手法よりも精度が高いことを示す。
論文 参考訳(メタデータ) (2024-01-27T15:52:58Z) - Stage-Aware Learning for Dynamic Treatments [3.6923632650826486]
動的治療体制のための新しい個別化学習法を提案する。
観測軌道が最適処理と完全に一致しなければならないという制約を緩和することにより,本手法はIPWE法における試料効率と安定性を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-30T06:35:31Z) - A Semiparametric Instrumented Difference-in-Differences Approach to
Policy Learning [2.1989182578668243]
本稿では,最適な治療方針を学習するための汎用機器差分差分法(DiD)アプローチを提案する。
具体的には、並列傾向仮定が成立しない場合、二進楽器変数(IV)を用いて識別結果を確立する。
また、ウォルド推定器、新しい逆確率推定器、半効率的で乗算的な頑健な推定器のクラスを構築する。
論文 参考訳(メタデータ) (2023-10-14T09:38:32Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Learning Individualized Treatment Rules with Estimated Translated
Inverse Propensity Score [29.606141542532356]
本稿では、個別化された治療規則(ITR)を学習して治療方針を導出することに焦点を当てる。
本フレームワークでは,ITRの学習を文脈的盗聴問題とみなし,治療方針の予測リスクを最小限に抑える。
長期的目標として、当社の方針は、最終的にはIVおよびVPの治験ガイドラインの改善につながる可能性がある。
論文 参考訳(メタデータ) (2020-07-02T13:13:56Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。