論文の概要: Counterfactually Guided Off-policy Transfer in Clinical Settings
- arxiv url: http://arxiv.org/abs/2006.11654v3
- Date: Wed, 16 Mar 2022 17:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 22:21:00.685040
- Title: Counterfactually Guided Off-policy Transfer in Clinical Settings
- Title(参考訳): 臨床現場におけるオフ・ポリシー・トランスファー
- Authors: Taylor W. Killian, Marzyeh Ghassemi, Shalmali Joshi
- Abstract要約: 本稿では,基礎となる生成過程を因果メカニズムでモデル化し,非政治的移行の手法を提案する。
観測不能なコンファウンディングの存在下で、データの空白にどのように対処するかを実証する。
- 参考スコア(独自算出の注目度): 7.313613282363874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain shift, encountered when using a trained model for a new patient
population, creates significant challenges for sequential decision making in
healthcare since the target domain may be both data-scarce and confounded. In
this paper, we propose a method for off-policy transfer by modeling the
underlying generative process with a causal mechanism. We use informative
priors from the source domain to augment counterfactual trajectories in the
target in a principled manner. We demonstrate how this addresses data-scarcity
in the presence of unobserved confounding. The causal parametrization of our
sampling procedure guarantees that counterfactual quantities can be estimated
from scarce observational target data, maintaining intuitive stability
properties. Policy learning in the target domain is further regularized via the
source policy through KL-divergence. Through evaluation on a simulated sepsis
treatment task, our counterfactual policy transfer procedure significantly
improves the performance of a learned treatment policy when assumptions of
"no-unobserved confounding" are relaxed.
- Abstract(参考訳): 新しい患者集団のためにトレーニングされたモデルを使用する際に遭遇するドメインシフトは、ターゲットドメインがデータスカースとコンストラクトの両方である可能性があるため、医療におけるシーケンシャルな意思決定に重大な課題を生じさせる。
本稿では,その基盤となる生成過程を因果メカニズムでモデル化し,非政治的移行手法を提案する。
我々は、ソースドメインからのインフォメーションプリミティブを使用して、原則的にターゲットの反事実的トラジェクタを補強する。
我々は、観測されていないコンファウンディングの存在下で、どのようにしてデータscarcityに対処するかを示す。
サンプリング手順の因果パラメトリゼーションにより,観測対象データから反事実量を推定でき,直感的な安定性が維持できる。
対象領域における政策学習は、KL分割により、ソースポリシーを介してさらに規則化される。
シミュレーションされたセプシス処理タスクの評価を通じて,非観測的共起」の仮定が緩和された場合,本手法は学習された治療方針の性能を著しく向上させる。
関連論文リスト
- Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning
Approach to Critical Care [68.8204255655161]
我々は、より信頼性の高いクリティカルケアポリシーを得ることができる深いQ-ラーニングアプローチを導入する。
まず、利用可能なすべての報酬に基づいてアクションセットを抽出し、次に、スパース主報酬に基づいて最終モデルを訓練し、制限されたアクションセットで達成する。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Policy Optimization for Personalized Interventions in Behavioral Health [8.69967783513041]
デジタルプラットフォームを通じて提供される行動的健康介入は、健康結果を大幅に改善する可能性がある。
患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討した。
この問題に対する新たなアプローチとして,政策イテレーションの一段階を近似したDecompPIを提案する。
論文 参考訳(メタデータ) (2023-03-21T21:42:03Z) - SCouT: Synthetic Counterfactuals via Spatiotemporal Transformers for
Actionable Healthcare [6.431557011732579]
合成制御法は、ドナーユニットからユニットの対実的現実を推定する強力なデータ駆動手法のクラスを開拓した。
中心となる技術は、ドナーの結果を結合して偽物を生成する、事前介入期間に適合した線形モデルである。
提案手法は,介入の開始前における局所的時間的情報の利用を,事象列を推定する有望な方法として提案する。
論文 参考訳(メタデータ) (2022-07-09T07:00:17Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Optimizing Medical Treatment for Sepsis in Intensive Care: from
Reinforcement Learning to Pre-Trial Evaluation [2.908482270923597]
本研究の目的は, 介入を最適化する強化学習(RL)が, 学習方針の治験に対する規制に適合する経路を遡及的に得る枠組みを確立することである。
我々は,死の主な原因の一つであり,複雑で不透明な患者動態のため治療が困難である集中治療室の感染症に焦点を当てた。
論文 参考訳(メタデータ) (2020-03-13T20:31:47Z) - Robust Policies For Proactive ICU Transfers [3.9286045166400685]
集中治療室(ICU)への移動が計画されていない患者は、ICUに直接入院した患者よりも死亡率が高い傾向にある。
患者劣化を予測する機械学習の最近の進歩は、病棟からICUへのEmphproactive transferの可能性をもたらした。
本研究では,患者全体のケア改善を最適化する際のデータ制限による統計的推定の不確実性を考慮したインプロバスト患者移動政策の課題について検討する。
論文 参考訳(メタデータ) (2020-02-14T21:07:15Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。