論文の概要: Ambiguous Dynamic Treatment Regimes: A Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2112.04571v1
- Date: Wed, 8 Dec 2021 20:22:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-11 00:15:48.701347
- Title: Ambiguous Dynamic Treatment Regimes: A Reinforcement Learning Approach
- Title(参考訳): 曖昧な動的治療規則:強化学習アプローチ
- Authors: Soroush Saghafian
- Abstract要約: 動的処理レジーム(DTR)は、このプロセスの形式化のために広く研究されている。
あいまいな動的治療レジーム(ADTR)の開発
本研究では,これらの学習手法をケーススタディと実験の両方で評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A main research goal in various studies is to use an observational data set
and provide a new set of counterfactual guidelines that can yield causal
improvements. Dynamic Treatment Regimes (DTRs) are widely studied to formalize
this process. However, available methods in finding optimal DTRs often rely on
assumptions that are violated in real-world applications (e.g., medical
decision-making or public policy), especially when (a) the existence of
unobserved confounders cannot be ignored, and (b) the unobserved confounders
are time-varying (e.g., affected by previous actions). When such assumptions
are violated, one often faces ambiguity regarding the underlying causal model
that is needed to be assumed to obtain an optimal DTR. This ambiguity is
inevitable, since the dynamics of unobserved confounders and their causal
impact on the observed part of the data cannot be understood from the observed
data. Motivated by a case study of finding superior treatment regimes for
patients who underwent transplantation in our partner hospital and faced a
medical condition known as New Onset Diabetes After Transplantation (NODAT), we
extend DTRs to a new class termed Ambiguous Dynamic Treatment Regimes (ADTRs),
in which the casual impact of treatment regimes is evaluated based on a "cloud"
of potential causal models. We then connect ADTRs to Ambiguous Partially
Observable Mark Decision Processes (APOMDPs) proposed by Saghafian (2018), and
develop two Reinforcement Learning methods termed Direct Augmented V-Learning
(DAV-Learning) and Safe Augmented V-Learning (SAV-Learning), which enable using
the observed data to efficiently learn an optimal treatment regime. We
establish theoretical results for these learning methods, including (weak)
consistency and asymptotic normality. We further evaluate the performance of
these learning methods both in our case study and in simulation experiments.
- Abstract(参考訳): 様々な研究における主要な研究目標は、観測データセットを使用して、因果改善をもたらす新しい反事実ガイドラインを提供することである。
動的処理レジーム(DTR)はこのプロセスの形式化のために広く研究されている。
しかし、最適なDTRを見つけるための有効な方法は、現実世界の応用(例えば医療意思決定や公共政策)に違反する仮定に依存することが多い。
(a)観察されていない共同創設者の存在を無視することができない。
(b)未観測の共同設立者は、時間的変化がある(例えば、以前の行動の影響)。
そのような仮定が破られた場合、しばしば最適なDTRを得るために仮定される基礎となる因果モデルに関する曖昧さに直面します。
この曖昧さは、観測されていない共同創設者のダイナミクスと、観測されたデータの一部に対する因果的影響が、観測されたデータから理解できないため、避けられない。
当院で移植を施行し,移植後新発症糖尿病(nodat)と診断された患者に対して優れた治療レジームが得られた症例に動機づけられ,dtrsをadtrs(ambiguous dynamic treatment regimes)という新しい分類に拡張し,治療レジームのカジュアルな影響を潜在的因果モデルの「クラウド」に基づいて評価した。
そこで我々は,ADTRを,Saghafian (2018) が提唱したAmbiguous partial Observable Mark Decision Processs (APOMDPs) に接続し,DAV-Learning (Direct Augmented V-Learning) と Safe Augmented V-Learning (SAV-Learning) という2つの強化学習手法を開発した。
本研究では,(弱)一貫性と漸近正規性を含むこれらの学習方法に関する理論的結果を確立する。
ケーススタディとシミュレーション実験の両方において,これらの学習手法の性能を更に評価する。
関連論文リスト
- Deep State-Space Generative Model For Correlated Time-to-Event Predictions [54.3637600983898]
そこで本研究では,様々な種類の臨床イベント間の相互作用を捉えるために,潜伏状態空間生成モデルを提案する。
また,死亡率と臓器不全の関連性について有意な知見が得られた。
論文 参考訳(メタデータ) (2024-07-28T02:42:36Z) - Benchmarking Heterogeneous Treatment Effect Models through the Lens of
Interpretability [82.29775890542967]
治療のパーソナライズされた効果を見積もるのは複雑だが、普及している問題である。
ヘテロジニアス処理効果推定に関する機械学習文献の最近の進歩は、洗練されたが不透明なツールの多くを生み出した。
我々は、ポストホックな特徴重要度法を用いて、モデルの予測に影響を及ぼす特徴を特定する。
論文 参考訳(メタデータ) (2022-06-16T17:59:05Z) - Deconfounding Actor-Critic Network with Policy Adaptation for Dynamic
Treatment Regimes [8.705574459727202]
我々は,患者に対する最適な治療方針を学習するために,新たにDAC(deconfounding actor-critic Network)を開発した。
非生存者に対する効果的な治療行為の処罰を避けるため,患者の即時健康状態の変化を捉えるための短期報酬を設計する。
1つの半合成と2つの異なる実世界のデータセットの実験結果は、提案したモデルが最先端のモデルより優れていることを示している。
論文 参考訳(メタデータ) (2022-05-19T20:53:03Z) - Learning Optimal Dynamic Treatment Regimes Using Causal Tree Methods in
Medicine [20.401805132360654]
最適動的治療体制(DTR)を学習するための2つの新しい方法を開発した。
本手法は,原因木法を用いて不均一な処理効果をデータ駆動で推定する手法である。
提案手法を合成データを用いて評価し,それらを集中治療室からの実世界データに適用する。
論文 参考訳(メタデータ) (2022-04-14T17:27:08Z) - SurvITE: Learning Heterogeneous Treatment Effects from Time-to-Event
Data [83.50281440043241]
時系列データから不均一な処理効果を推定する問題について検討する。
本稿では,バランス表現に基づく治療特異的ハザード推定のための新しいディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2021-10-26T20:13:17Z) - Deep Bayesian Estimation for Dynamic Treatment Regimes with a Long
Follow-up Time [28.11470886127216]
動的治療体制(DTR)の因果効果推定は、シーケンシャルな意思決定に寄与する。
結果回帰モデルと高次元特徴に対する治療モデルを組み合わせる。
また、開発されたディープベイズモデルでは、不確実性をモデル化し、自動運転車や医療設計など、安全に配慮したアプリケーションに不可欠な予測分散を出力することができる。
論文 参考訳(メタデータ) (2021-09-20T13:21:39Z) - Proximal Learning for Individualized Treatment Regimes Under Unmeasured
Confounding [3.020737957610002]
我々は,未測定のコンファウンディングの存在下で最適な個別化治療レジーム(itrs)を推定する手法を開発した。
これらの結果に基づいて,クラス内最適ITRの多種多様な分類に基づく探索手法を提案する。
論文 参考訳(メタデータ) (2021-05-03T21:49:49Z) - MIA-Prognosis: A Deep Learning Framework to Predict Therapy Response [58.0291320452122]
本稿では,患者の予後と治療反応を予測するための統合型深層学習手法を提案する。
我々は,マルチモーダル非同期時系列分類タスクとして,確率モデリングを定式化する。
我々の予測モデルは、長期生存の観点から、低リスク、高リスクの患者をさらに階層化する可能性がある。
論文 参考訳(メタデータ) (2020-10-08T15:30:17Z) - Estimating Individual Treatment Effects with Time-Varying Confounders [9.784193264717098]
医療において、観察データから個別治療効果(ITE)を推定することは意義があり実用的である。
既存の作業は主に、隠れた共同設立者が存在しないという強い無知の仮定に依存している。
時系列重み付け (DSW) を用いて, ITE の時間変化を推定する手法を提案する。
論文 参考訳(メタデータ) (2020-08-27T02:21:56Z) - DTR Bandit: Learning to Make Response-Adaptive Decisions With Low Regret [59.81290762273153]
動的治療体制 (DTR) はパーソナライズされ適応された多段階の治療計画であり、治療決定を個人の初期特徴に適応させ、その後の各段階における中間結果と特徴に適応させる。
本稿では,探索と搾取を慎重にバランスさせることで,遷移モデルと報酬モデルが線形である場合に,速度-最適後悔を実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T13:03:42Z) - Generalization Bounds and Representation Learning for Estimation of
Potential Outcomes and Causal Effects [61.03579766573421]
代替薬に対する患者一人の反応など,個人レベルの因果効果の推定について検討した。
我々は,表現の誘導的処理群距離を正規化することにより,境界を最小化する表現学習アルゴリズムを考案した。
これらのアルゴリズムを拡張して、重み付き表現を同時に学習し、治療群距離をさらに削減する。
論文 参考訳(メタデータ) (2020-01-21T10:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。