論文の概要: Leveraging Prototype Patient Representations with Feature-Missing-Aware
Calibration to Mitigate EHR Data Sparsity
- arxiv url: http://arxiv.org/abs/2309.04160v2
- Date: Sun, 17 Sep 2023 20:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 22:05:16.312524
- Title: Leveraging Prototype Patient Representations with Feature-Missing-Aware
Calibration to Mitigate EHR Data Sparsity
- Title(参考訳): EHRデータスカラー化のための特徴ミス対応校正による患者表現の活用
- Authors: Yinghao Zhu, Zixiang Wang, Long He, Shiyun Xie, Zixi Chen, Jingkun An,
Liantao Ma, Chengwei Pan
- Abstract要約: 現在の直接計算は、類似の行や列を参照してヒンジに近づき、生の欠落データを完成させる。
本稿では,機能的信頼を考慮に入れた新たな患者類似度尺度を提案する。
- 参考スコア(独自算出の注目度): 7.7036378709189455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic Health Record (EHR) data frequently exhibits sparse
characteristics, posing challenges for predictive modeling. Current direct
imputation such as matrix imputation approaches hinge on referencing analogous
rows or columns to complete raw missing data and do not differentiate between
imputed and actual values. As a result, models may inadvertently incorporate
irrelevant or deceptive information with respect to the prediction objective,
thereby compromising the efficacy of downstream performance. While some methods
strive to recalibrate or augment EHR embeddings after direct imputation, they
often mistakenly prioritize imputed features. This misprioritization can
introduce biases or inaccuracies into the model. To tackle these issues, our
work resorts to indirect imputation, where we leverage prototype
representations from similar patients to obtain a denser embedding. Recognizing
the limitation that missing features are typically treated the same as present
ones when measuring similar patients, our approach designs a feature confidence
learner module. This module is sensitive to the missing feature status,
enabling the model to better judge the reliability of each feature. Moreover,
we propose a novel patient similarity metric that takes feature confidence into
account, ensuring that evaluations are not based merely on potentially
inaccurate imputed values. Consequently, our work captures dense prototype
patient representations with feature-missing-aware calibration process.
Comprehensive experiments demonstrate that designed model surpasses established
EHR-focused models with a statistically significant improvement on MIMIC-III
and MIMIC-IV datasets in-hospital mortality outcome prediction task. The code
is publicly available at \url{https://github.com/yhzhu99/SparseEHR} to assure
the reproducibility.
- Abstract(参考訳): 電子健康記録(EHR)データは、しばしばスパース特性を示し、予測モデリングの課題を提起する。
行列計算などの現在の直接計算は、類似の行や列を参照してヒンジに近づき、生の欠落データを完成させる。
その結果、モデルは、予測対象に関する無関係または偽りの情報を不注意に組み込んで、下流のパフォーマンスの有効性を損なうことができる。
一部の手法は直接的命令の後にEHRの埋め込みを校正または拡張しようとするが、しばしば不適切な特徴を誤って優先する。
この誤った優先順位付けはモデルにバイアスや不正確さをもたらす可能性がある。
これらの課題に対処するため,我々は間接的インダクタンス法を用いて,類似患者からのプロトタイプ表現を活用し,より高密度な埋め込みを実現する。
同様の患者を計測する際, 機能不足の限界が現在のものと同じであることを示すため, 本手法は機能信頼学習モジュールを設計する。
このモジュールは欠落している機能状況に敏感であり、モデルが各機能の信頼性をよりよく判断できる。
さらに, 評価が潜在的に不正確な不正確な値にのみ基づかないことを保証するために, 特徴的信頼度を考慮した新しい類似度指標を提案する。
そこで本研究では,特徴量検出手法を用いて患者表現の密集を捉えた。
総合的な実験により、設計モデルが確立されたEHRに焦点を当てたモデルを超え、MIMIC-IIIおよびMIMIC-IVデータセットを病院内死亡率予測タスクで統計的に有意に改善することが示された。
コードは、再現性を保証するために \url{https://github.com/yhzhu99/sparseehr} で公開されている。
関連論文リスト
- Learnable Prompt as Pseudo-Imputation: Reassessing the Necessity of
Traditional EHR Data Imputation in Downstream Clinical Prediction [16.638760651750744]
既存のディープラーニングトレーニングプロトコルでは、欠落した値を再構築するために統計情報や計算モデルを使用する必要がある。
本稿では,Pseudo Imputation (PAI) を新たなトレーニングプロトコルとして紹介する。
PAIはもはやインプットデータを導入しないが、ダウンストリームモデルの暗黙の選好を欠落値にモデル化するための学習可能なプロンプトを構築する。
論文 参考訳(メタデータ) (2024-01-30T07:19:36Z) - IGNITE: Individualized GeNeration of Imputations in Time-series
Electronic health records [7.451873794596469]
本研究では、患者動態を学習し、個人の人口動態の特徴や治療に合わせたパーソナライズされた値を生成する新しいディープラーニングモデルを提案する。
提案モデルであるIGNITEは,2段階の注意を付加した条件付き2変分オートエンコーダを用いて,個人に対して欠落した値を生成する。
IGNITEは,データ再構成の欠如やタスク予測において,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-09T07:57:21Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - A Differentially Private Weighted Empirical Risk Minimization Procedure
and its Application to Outcome Weighted Learning [5.025486694392673]
本稿では,DP保証の厳密な理論的証明を背景とした,最初の微分プライベートなwERMアルゴリズムを提案する。
本研究は,DP-wERMによる重み付け学習(OWL)の有効性について,シミュレーションおよび覚醒のためのメラトニン実効臨床試験で評価した。
論文 参考訳(メタデータ) (2023-07-24T21:03:25Z) - Conservative Prediction via Data-Driven Confidence Minimization [66.35245313125934]
機械学習モデルのエラーは、特に医療のような安全クリティカルな領域では、コストがかかる。
本稿では、不確実性データセットに対する信頼性を最小化するデータ駆動型信頼性最小化(DCM)を提案する。
実験の結果、DCMは8つのID-OODデータセットペアに対して、最先端のOOD検出方法よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Reliable and Trustworthy Machine Learning for Health Using Dataset Shift
Detection [7.263558963357268]
予測不能なMLモデルの振る舞いは、特に健康領域において、その安全性に対する深刻な懸念を引き起こす。
マハラノビス距離およびグラム行列に基づく分布外検出法は,分布外データを高精度に検出できることを示す。
次に、アウト・オブ・ディストリビューションスコアを人間の解釈可能なConFIDENCE SCOREに変換し、ユーザーの健康MLアプリケーションとのインタラクションに与える影響を調査する。
論文 参考訳(メタデータ) (2021-10-26T20:49:01Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。