論文の概要: Leveraging Prototype Patient Representations with Feature-Missing-Aware
Calibration to Mitigate EHR Data Sparsity
- arxiv url: http://arxiv.org/abs/2309.04160v1
- Date: Fri, 8 Sep 2023 07:01:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 15:42:56.018620
- Title: Leveraging Prototype Patient Representations with Feature-Missing-Aware
Calibration to Mitigate EHR Data Sparsity
- Title(参考訳): EHRデータスカラー化のための特徴ミス対応校正による患者表現の活用
- Authors: Yinghao Zhu, Zixiang Wang, Long He, Shiyun Xie, Zixi Chen, Jingkun An,
Liantao Ma, Chengwei Pan
- Abstract要約: 現在の直接計算は、類似の行や列を参照してヒンジに近づき、生の欠落データを完成させる。
本稿では,機能的信頼を考慮に入れた新たな患者類似度尺度を提案する。
- 参考スコア(独自算出の注目度): 7.7036378709189455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic Health Record (EHR) data frequently exhibits sparse
characteristics, posing challenges for predictive modeling. Current direct
imputation such as matrix imputation approaches hinge on referencing analogous
rows or columns to complete raw missing data and do not differentiate between
imputed and actual values. As a result, models may inadvertently incorporate
irrelevant or deceptive information with respect to the prediction objective,
thereby compromising the efficacy of downstream performance. While some methods
strive to recalibrate or augment EHR embeddings after direct imputation, they
often mistakenly prioritize imputed features. This misprioritization can
introduce biases or inaccuracies into the model. To tackle these issues, our
work resorts to indirect imputation, where we leverage prototype
representations from similar patients to obtain a denser embedding. Recognizing
the limitation that missing features are typically treated the same as present
ones when measuring similar patients, our approach designs a feature confidence
learner module. This module is sensitive to the missing feature status,
enabling the model to better judge the reliability of each feature. Moreover,
we propose a novel patient similarity metric that takes feature confidence into
account, ensuring that evaluations are not based merely on potentially
inaccurate imputed values. Consequently, our work captures dense prototype
patient representations with feature-missing-aware calibration process.
Comprehensive experiments demonstrate that designed model surpasses established
EHR-focused models with a statistically significant improvement on MIMIC-III
and MIMIC-IV datasets in-hospital mortality outcome prediction task. The code
is publicly available at \url{https://anonymous.4open.science/r/SparseEHR} to
assure the reproducibility.
- Abstract(参考訳): 電子健康記録(EHR)データは、しばしばスパース特性を示し、予測モデリングの課題を提起する。
行列計算などの現在の直接計算は、類似の行や列を参照してヒンジに近づき、生の欠落データを完成させる。
その結果、モデルは、予測対象に関する無関係または偽りの情報を不注意に組み込んで、下流のパフォーマンスの有効性を損なうことができる。
一部の手法は直接的命令の後にEHRの埋め込みを校正または拡張しようとするが、しばしば不適切な特徴を誤って優先する。
この誤った優先順位付けはモデルにバイアスや不正確さをもたらす可能性がある。
これらの課題に対処するため,我々は間接的インダクタンス法を用いて,類似患者からのプロトタイプ表現を活用し,より高密度な埋め込みを実現する。
同様の患者を計測する際, 機能不足の限界が現在のものと同じであることを示すため, 本手法は機能信頼学習モジュールを設計する。
このモジュールは欠落している機能状況に敏感であり、モデルが各機能の信頼性をよりよく判断できる。
さらに, 評価が潜在的に不正確な不正確な値にのみ基づかないことを保証するために, 特徴的信頼度を考慮した新しい類似度指標を提案する。
そこで本研究では,特徴量検出手法を用いて患者表現の密集を捉えた。
総合的な実験により、設計モデルが確立されたEHRに焦点を当てたモデルを超え、MIMIC-IIIおよびMIMIC-IVデータセットを病院内死亡率予測タスクで統計的に有意に改善することが示された。
コードは、再現性を保証するために \url{https://anonymous.4open.science/r/sparseehr} で公開されている。
関連論文リスト
- Synthesizing Multimodal Electronic Health Records via Predictive Diffusion Models [69.06149482021071]
EHRPDと呼ばれる新しいEHRデータ生成モデルを提案する。
時間間隔推定を組み込んだ拡散モデルである。
我々は2つの公開データセットで実験を行い、忠実さ、プライバシー、実用性の観点からEPHPDを評価する。
論文 参考訳(メタデータ) (2024-06-20T02:20:23Z) - SMART: Towards Pre-trained Missing-Aware Model for Patient Health Status Prediction [15.136747790595217]
本稿では,患者の健康状態予測のためのセルフスーパービジョン・ミス・アウェア・リプレッション・ラーニング手法を提案する。
SMARTは、欠落を認識し、高次表現の学習に集中することにより、欠落データに対するより優れた一般化と堅牢性を促進する。
本研究では,6つのEHRタスクに対する広範囲な実験を通じてSMARTの有効性を検証し,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-15T02:19:34Z) - Learnable Prompt as Pseudo-Imputation: Reassessing the Necessity of
Traditional EHR Data Imputation in Downstream Clinical Prediction [16.638760651750744]
既存のディープラーニングトレーニングプロトコルでは、欠落した値を再構築するために統計情報や計算モデルを使用する必要がある。
本稿では,Pseudo Imputation (PAI) を新たなトレーニングプロトコルとして紹介する。
PAIはもはやインプットデータを導入しないが、ダウンストリームモデルの暗黙の選好を欠落値にモデル化するための学習可能なプロンプトを構築する。
論文 参考訳(メタデータ) (2024-01-30T07:19:36Z) - IGNITE: Individualized GeNeration of Imputations in Time-series
Electronic health records [7.451873794596469]
本研究では、患者動態を学習し、個人の人口動態の特徴や治療に合わせたパーソナライズされた値を生成する新しいディープラーニングモデルを提案する。
提案モデルであるIGNITEは,2段階の注意を付加した条件付き2変分オートエンコーダを用いて,個人に対して欠落した値を生成する。
IGNITEは,データ再構成の欠如やタスク予測において,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-09T07:57:21Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Sequential Diagnosis Prediction with Transformer and Ontological
Representation [35.88195694025553]
本稿では,患者が訪問する時間スタンプと滞在時間との間に不規則な間隔を対応させるSETORと呼ばれる,エンドツーエンドの頑健なトランスフォーマーモデルを提案する。
2つの実世界の医療データセットで実施された実験により、シーケンシャルな診断予測モデルSETORは、従来の最先端のアプローチよりも優れた予測結果が得られることが示された。
論文 参考訳(メタデータ) (2021-09-07T13:09:55Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。