論文の概要: Counterfactually Guided Off-policy Transfer in Clinical Settings
- arxiv url: http://arxiv.org/abs/2006.11654v3
- Date: Wed, 16 Mar 2022 17:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 22:21:00.685040
- Title: Counterfactually Guided Off-policy Transfer in Clinical Settings
- Title(参考訳): 臨床現場におけるオフ・ポリシー・トランスファー
- Authors: Taylor W. Killian, Marzyeh Ghassemi, Shalmali Joshi
- Abstract要約: 本稿では,基礎となる生成過程を因果メカニズムでモデル化し,非政治的移行の手法を提案する。
観測不能なコンファウンディングの存在下で、データの空白にどのように対処するかを実証する。
- 参考スコア(独自算出の注目度): 7.313613282363874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain shift, encountered when using a trained model for a new patient
population, creates significant challenges for sequential decision making in
healthcare since the target domain may be both data-scarce and confounded. In
this paper, we propose a method for off-policy transfer by modeling the
underlying generative process with a causal mechanism. We use informative
priors from the source domain to augment counterfactual trajectories in the
target in a principled manner. We demonstrate how this addresses data-scarcity
in the presence of unobserved confounding. The causal parametrization of our
sampling procedure guarantees that counterfactual quantities can be estimated
from scarce observational target data, maintaining intuitive stability
properties. Policy learning in the target domain is further regularized via the
source policy through KL-divergence. Through evaluation on a simulated sepsis
treatment task, our counterfactual policy transfer procedure significantly
improves the performance of a learned treatment policy when assumptions of
"no-unobserved confounding" are relaxed.
- Abstract(参考訳): 新しい患者集団のためにトレーニングされたモデルを使用する際に遭遇するドメインシフトは、ターゲットドメインがデータスカースとコンストラクトの両方である可能性があるため、医療におけるシーケンシャルな意思決定に重大な課題を生じさせる。
本稿では,その基盤となる生成過程を因果メカニズムでモデル化し,非政治的移行手法を提案する。
我々は、ソースドメインからのインフォメーションプリミティブを使用して、原則的にターゲットの反事実的トラジェクタを補強する。
我々は、観測されていないコンファウンディングの存在下で、どのようにしてデータscarcityに対処するかを示す。
サンプリング手順の因果パラメトリゼーションにより,観測対象データから反事実量を推定でき,直感的な安定性が維持できる。
対象領域における政策学習は、KL分割により、ソースポリシーを介してさらに規則化される。
シミュレーションされたセプシス処理タスクの評価を通じて,非観測的共起」の仮定が緩和された場合,本手法は学習された治療方針の性能を著しく向上させる。
関連論文リスト
- Offline Bayesian Aleatoric and Epistemic Uncertainty Quantification and Posterior Value Optimisation in Finite-State MDPs [3.1139806580181006]
有限状態マルコフ決定過程(MDP)のオフライン使用例におけるベイズの不確かさを未知のダイナミクスで定量化することの課題に対処する。
我々は標準ベイズ強化学習法を用いて,MDPパラメータの後方不確実性を捉える。
次に、後続サンプル間の戻り分布の最初の2つのモーメントを解析的に計算し、全分散の法則を適用する。
我々は,AIクリニック問題に適用することで,実世界の影響と計算能力のスケーラビリティを強調した。
論文 参考訳(メタデータ) (2024-06-04T16:21:14Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Policy Optimization for Personalized Interventions in Behavioral Health [8.10897203067601]
デジタルプラットフォームを通じて提供される行動的健康介入は、健康結果を大幅に改善する可能性がある。
患者に対するパーソナライズされた介入を最適化して長期的効果を最大化する問題について検討した。
患者システムの状態空間を個別のレベルに分解するDecompPIをダブする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T21:42:03Z) - SCouT: Synthetic Counterfactuals via Spatiotemporal Transformers for
Actionable Healthcare [6.431557011732579]
合成制御法は、ドナーユニットからユニットの対実的現実を推定する強力なデータ駆動手法のクラスを開拓した。
中心となる技術は、ドナーの結果を結合して偽物を生成する、事前介入期間に適合した線形モデルである。
提案手法は,介入の開始前における局所的時間的情報の利用を,事象列を推定する有望な方法として提案する。
論文 参考訳(メタデータ) (2022-07-09T07:00:17Z) - Optimal discharge of patients from intensive care via a data-driven
policy learning framework [58.720142291102135]
退院課題は、退院期間の短縮と退院決定後の退院や死亡のリスクとの不確実なトレードオフに対処することが重要である。
本研究は、このトレードオフを捉えるためのエンドツーエンドの汎用フレームワークを導入し、最適放電タイミング決定を推奨する。
データ駆動型アプローチは、患者の生理的状態を捉えた同種で離散的な状態空間表現を導出するために用いられる。
論文 参考訳(メタデータ) (2021-12-17T04:39:33Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Optimizing Medical Treatment for Sepsis in Intensive Care: from
Reinforcement Learning to Pre-Trial Evaluation [2.908482270923597]
本研究の目的は, 介入を最適化する強化学習(RL)が, 学習方針の治験に対する規制に適合する経路を遡及的に得る枠組みを確立することである。
我々は,死の主な原因の一つであり,複雑で不透明な患者動態のため治療が困難である集中治療室の感染症に焦点を当てた。
論文 参考訳(メタデータ) (2020-03-13T20:31:47Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。