論文の概要: Controlling for Unobserved Confounding with Large Language Model Classification of Patient Smoking Status
- arxiv url: http://arxiv.org/abs/2411.03004v1
- Date: Tue, 05 Nov 2024 11:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:59.524411
- Title: Controlling for Unobserved Confounding with Large Language Model Classification of Patient Smoking Status
- Title(参考訳): 患者喫煙状況の大規模言語モデル分類による未観測コンファウンディングの制御
- Authors: Samuel Lee, Zach Wood-Doughty,
- Abstract要約: 因果理解はエビデンスベースの医療の基本的な目標である。
それまでの研究では、機械学習との未観測の相違に対処することを提案した。
本稿では,患者の喫煙状況を予測するために,臨床ノートで訓練した大規模言語モデルを用いて,この方法論を拡張した。
- 参考スコア(独自算出の注目度): 0.7443139252028033
- License:
- Abstract: Causal understanding is a fundamental goal of evidence-based medicine. When randomization is impossible, causal inference methods allow the estimation of treatment effects from retrospective analysis of observational data. However, such analyses rely on a number of assumptions, often including that of no unobserved confounding. In many practical settings, this assumption is violated when important variables are not explicitly measured in the clinical record. Prior work has proposed to address unobserved confounding with machine learning by imputing unobserved variables and then correcting for the classifier's mismeasurement. When such a classifier can be trained and the necessary assumptions are met, this method can recover an unbiased estimate of a causal effect. However, such work has been limited to synthetic data, simple classifiers, and binary variables. This paper extends this methodology by using a large language model trained on clinical notes to predict patients' smoking status, which would otherwise be an unobserved confounder. We then apply a measurement error correction on the categorical predicted smoking status to estimate the causal effect of transthoracic echocardiography on mortality in the MIMIC dataset.
- Abstract(参考訳): 因果理解はエビデンスベースの医療の基本的な目標である。
ランダム化が不可能な場合、因果推論法は観測データの振り返り解析から治療効果を推定できる。
しかし、そのような分析はいくつかの仮定に依存しており、しばしば観測されていない矛盾の仮定は含まない。
多くの実践的な設定において、この仮定は、重要な変数が臨床記録で明示的に測定されていない場合に違反する。
従来の研究では、未観測変数を命令し、次に分類器の誤検出を補正することで、機械学習との未観測の相違に対処することを提案した。
このような分類器を訓練し、必要な仮定を満たせば、この方法は因果効果の偏りのない推定を回復することができる。
しかし、このような研究は合成データ、単純な分類器、バイナリ変数に限られている。
本稿では,臨床ノートに訓練された大言語モデルを用いて,患者の喫煙状況を予測することにより,この方法論を拡張した。
次に,MIMICデータセットの死亡率に対する経胸壁心エコー図の因果効果を推定するために,カテゴリー別喫煙予測値に測定誤差補正を適用した。
関連論文リスト
- SepsisLab: Early Sepsis Prediction with Uncertainty Quantification and Active Sensing [67.8991481023825]
セプシスは米国での院内死亡の主な原因である。
既存の予測モデルは通常、情報不足の少ない高品質なデータで訓練される。
限られた観察により信頼性の低い高リスク患者に対して,ロバストな能動センシングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-24T04:47:36Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Identifiable causal inference with noisy treatment and no side information [6.432072145009342]
本研究では,不正確な連続処理変数を仮定するモデルを提案する。
我々は,提案モデルの因果効果の推定値が,側情報や測定誤差の分散に関する知識がなくても同定可能であることを証明した。
我々の研究は、信頼できる因果推論を行うアプリケーションの範囲を広げている。
論文 参考訳(メタデータ) (2023-06-18T18:38:10Z) - Benchmarking Heterogeneous Treatment Effect Models through the Lens of
Interpretability [82.29775890542967]
治療のパーソナライズされた効果を見積もるのは複雑だが、普及している問題である。
ヘテロジニアス処理効果推定に関する機械学習文献の最近の進歩は、洗練されたが不透明なツールの多くを生み出した。
我々は、ポストホックな特徴重要度法を用いて、モデルの予測に影響を及ぼす特徴を特定する。
論文 参考訳(メタデータ) (2022-06-16T17:59:05Z) - A Machine Learning Model for Predicting, Diagnosing, and Mitigating
Health Disparities in Hospital Readmission [0.0]
本稿では,データ中のバイアスの検出と緩和とモデル予測が可能な機械学習パイプラインを提案する。
提案手法の有効性を,精度と公正度の測定値を用いて評価した。
論文 参考訳(メタデータ) (2022-06-13T16:07:25Z) - Calibration of prediction rules for life-time outcomes using prognostic
Cox regression survival models and multiple imputations to account for
missing predictor data with cross-validatory assessment [0.0]
検閲対象の生存モデルにおけるインプテーションと予測キャリブレーションを組み合わせた手法について述べる。
予測平均化は、ルービンの規則の直接適用とは対照的に、優れた統計的特性、特により小さい予測的変化を有するように見える。
論文 参考訳(メタデータ) (2021-05-04T20:10:12Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z) - Increasing the efficiency of randomized trial estimates via linear
adjustment for a prognostic score [59.75318183140857]
ランダム化実験による因果効果の推定は臨床研究の中心である。
歴史的借用法のほとんどは、厳格なタイプiエラー率制御を犠牲にして分散の削減を達成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:10Z) - Impact of Medical Data Imprecision on Learning Results [9.379890125442333]
医療応用におけるインプレクションが予測結果に与える影響について検討した。
トレーニング済みのモデルを用いて、患者の甲状腺機能亢進症の将来状態を予測する。
論文 参考訳(メタデータ) (2020-07-24T06:54:57Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。