論文の概要: LLM-Extracted Covariates for Clinical Causal Inference: Rethinking Integration Strategies
- arxiv url: http://arxiv.org/abs/2604.16763v2
- Date: Tue, 21 Apr 2026 03:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.894211
- Title: LLM-Extracted Covariates for Clinical Causal Inference: Rethinking Integration Strategies
- Title(参考訳): 臨床因果推論のためのLCM抽出共変体:統合戦略の再考
- Authors: Lei Liu, Jialin Chen, Kathy Macropol,
- Abstract要約: 電子的健康記録からの因果推論は、測定されていないコンバウンディングによって根本的に制限される。
我々は、潜伏した共同ファウンダーを因果推定パイプラインに効果的に統合する方法を示す。
- 参考スコア(独自算出の注目度): 7.5675661390024125
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Causal inference from electronic health records (EHR) is fundamentally limited by unmeasured confounding: critical clinical states such as frailty, goals of care, and mental status are documented in free-text notes but absent from structured data. Large language models can extract these latent confounders as interpretable, structured covariates, yet how to effectively integrate them into causal estimation pipelines has not been systematically studied. Using the MIMIC-IV database with 21,859 sepsis patients, we compare seven covariate-integration strategies for estimating the effect of early vasopressor initiation on 28-day mortality, spanning tabular-only baselines, traditional NLP representations, and three LLM-augmented approaches. A central finding is that not all integration strategies are equally effective: directly augmenting the propensity score model with LLM covariates achieves the best performance, while dual-caliper matching on text-derived categorical distances restricts the donor pool and degrades estimation. In semi-synthetic experiments with known ground-truth effects, LLM-augmented propensity scores reduce estimation bias from 0.0143 to 0.0003 relative to tabular-only methods, and this advantage persists under substantial simulated extraction error. On real data, incorporating LLM-extracted covariates reduces the estimated treatment effect from 0.055 to 0.027, directionally consistent with the CLOVERS randomized trial, and a doubly robust estimator yielding 0.019 confirms the robustness of this finding. Our results offer practical guidance on when and how text-derived covariates improve causal estimation in critical care.
- Abstract(参考訳): 電子的健康記録(EHR)からの因果推論は、不測のコンファウンディングによって基本的に制限される: 虚偽、ケアの目標、精神状態などの重要な臨床状態は、自由テキストノートに記録されるが、構造化データにはない。
大規模言語モデルは、これらの潜在的共同創設者を解釈可能で構造化された共変量として抽出することができるが、因果推定パイプラインに効果的に統合する方法は体系的に研究されていない。
21,859人の敗血症患者のMIMIC-IVデータベースを用いて,早期血管圧開始が28日間の死亡率,表層のみのベースライン,従来のNLP表現,および3つのLPM拡張アプローチに与える影響を推定するためのコバリアント積分法を比較した。
LLM共変量による確率スコアモデルを直接増大させることは、テキスト由来のカテゴリー距離でのデュアルキャリパーマッチングはドナープールを制限し、推定を劣化させる。
既知基底構造効果を用いた半合成実験では、LLM増強された確率スコアは、表計算のみの手法と比較して0.0143から0.0003まで推定バイアスを減少させ、この利点は相当な模擬抽出誤差の下で持続する。
実データでは、LCM抽出共変数を組み込むことで、CLOVERSランダム化試験と方向整合した0.055から0.027への推定処理効果が減少し、0.019の2倍頑健な推定器が、この発見の堅牢性を確認する。
本研究は, テキスト由来の共変体が重度ケアにおける因果推定をいつ, どのように改善するかについて, 実践的なガイダンスを提供する。
関連論文リスト
- Predicting Post-Traumatic Epilepsy from Clinical Records using Large Language Model Embeddings [1.5481419663066267]
外傷後てんかん(PTE)は外傷性脳損傷(TBI)後に発症する神経疾患である
臨床記録を符号化する固定特徴抽出器として,事前訓練された大言語モデル(LLM)を実装した自動PTE予測フレームワークを開発した。
論文 参考訳(メタデータ) (2026-04-16T02:24:24Z) - PREBA: Surgical Duration Prediction via PCA-Weighted Retrieval-Augmented LLMs and Bayesian Averaging Aggregation [51.96735866702332]
PreBAはPCA重み付き検索とベイズ平均アグリゲーションを統合した検索拡張フレームワークである。
例えば、PreBAはパフォーマンスを大幅に改善し、MAEを最大40%削減し、ゼロショット推論でR2を-0.13から0.62に引き上げる。
論文 参考訳(メタデータ) (2026-02-27T07:19:23Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - Assumption-Lean Post-Integrated Inference with Surrogate Control Outcomes [6.448728765953916]
制御結果を用いて遅延不均一性を調整する頑健なポストインテグレート推論(PII)手法を提案する。
我々は、予測された直接効果推定に関する半パラメトリック推論を開発し、隠された仲介者、共同設立者、モデレーターを考慮に入れた。
提案された二重頑健な推定器は、最小の仮定と潜在的な不特定性の下で一貫性があり、効率的である。
論文 参考訳(メタデータ) (2024-10-07T12:52:38Z) - B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under
Hidden Confounding [51.74479522965712]
本稿では,B-Learnerと呼ばれるメタラーナーを提案する。
我々は、その推定が有効で、鋭く、効率的であることを証明し、既存の方法よりも一般的な条件下で構成推定器に対して準オーラル特性を持つことを示した。
論文 参考訳(メタデータ) (2023-04-20T18:07:19Z) - Robust and Agnostic Learning of Conditional Distributional Treatment Effects [44.31792000298105]
問題クラスに対する条件付きDTE(Conditional DTE)を学習するための、新しい堅牢でモデルに依存しない方法論を提供する。
本手法は回帰モデルクラスにCDTEの最良のプロジェクションを提供することができるため,モデルに依存しない。
シミュレーションにおける提案手法の挙動と,富に対する401(k)の適格性の影響を事例として検討した。
論文 参考訳(メタデータ) (2022-05-23T17:40:31Z) - Treatment Effect Risk: Bounds and Inference [58.442274475425144]
平均的な治療効果は社会福祉の変化を測定するため、たとえ肯定的であっても、人口の約10%に悪影響を及ぼすリスクがある。
本稿では,ICT分布のリスク条件値(CVaR)として定式化されたこの重要なリスク尺度をどう評価するかを検討する。
いくつかの境界は、複素CATE関数を単一の計量に要約したものと解釈することもでき、有界であることとは無関係に興味を持つ。
論文 参考訳(メタデータ) (2022-01-15T17:21:26Z) - Estimating heterogeneous survival treatment effect in observational data
using machine learning [9.951103976634407]
観測データにおける不均一な処理効果を推定する方法は, 連続的あるいは二分的な結果に大きく焦点を絞っている。
対物的フレームワークで柔軟な機械学習手法を使用することは、複雑な個人特性による課題に対処するための有望なアプローチである。
論文 参考訳(メタデータ) (2020-08-17T01:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。