論文の概要: Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data
- arxiv url: http://arxiv.org/abs/2104.02932v1
- Date: Wed, 7 Apr 2021 06:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:59:40.929038
- Title: Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data
- Title(参考訳): 自己のポジティブなサンプルをブートストラップする:電子健康記録データとの対比学習
- Authors: Tingyi Wanyan, Jing Zhang, Ying Ding, Ariful Azad, Zhangyang Wang,
Benjamin S Glicksberg
- Abstract要約: 本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
- 参考スコア(独自算出の注目度): 62.29031007761901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic Health Record (EHR) data has been of tremendous utility in
Artificial Intelligence (AI) for healthcare such as predicting future clinical
events. These tasks, however, often come with many challenges when using
classical machine learning models due to a myriad of factors including class
imbalance and data heterogeneity (i.e., the complex intra-class variances). To
address some of these research gaps, this paper leverages the exciting
contrastive learning framework and proposes a novel contrastive regularized
clinical classification model. The contrastive loss is found to substantially
augment EHR-based prediction: it effectively characterizes the
similar/dissimilar patterns (by its "push-and-pull" form), meanwhile mitigating
the highly skewed class distribution by learning more balanced feature spaces
(as also echoed by recent findings). In particular, when naively exporting the
contrastive learning to the EHR data, one hurdle is in generating positive
samples, since EHR data is not as amendable to data augmentation as image data.
To this end, we have introduced two unique positive sampling strategies
specifically tailored for EHR data: a feature-based positive sampling that
exploits the feature space neighborhood structure to reinforce the feature
learning; and an attribute-based positive sampling that incorporates
pre-generated patient similarity metrics to define the sample proximity. Both
sampling approaches are designed with an awareness of unique high intra-class
variance in EHR data. Our overall framework yields highly competitive
experimental results in predicting the mortality risk on real-world COVID-19
EHR data with a total of 5,712 patients admitted to a large, urban health
system. Specifically, our method reaches a high AUROC prediction score of
0.959, which outperforms other baselines and alternatives: cross-entropy(0.873)
and focal loss(0.931).
- Abstract(参考訳): EHR(Electronic Health Record)データは、将来の臨床イベントの予測など、医療のための人工知能(AI)において、非常に有用である。
しかしながら、これらのタスクは、クラス不均衡やデータ不均一性(複雑なクラス内分散)を含む無数の要因のために、古典的な機械学習モデルを使用する際に、多くの問題が発生する。
これらの研究のギャップに対処するため,本論文では,エキサイティングなコントラスト学習フレームワークを活用し,新しいコントラスト正規化臨床分類モデルを提案する。
対照的な損失は、EHRに基づく予測を大幅に増大させ、類似/異種パターン(push-and-pull形式)を効果的に特徴づける一方で、よりバランスの取れた特徴空間を学習することで、高度に歪んだクラス分布を緩和する(最近の研究でも同様に)。
特に、コントラスト学習をEHRデータにネーティブにエクスポートする場合、画像データとしてデータ拡張に適合しないため、肯定的なサンプルを生成することがハードルとなる。
この目的のために,ehrデータに特化された2つのユニークな正のサンプリング戦略を導入した。特徴空間近傍構造を活用した特徴に基づく正のサンプリングと,予め生成された患者類似度指標を組み込んだ属性に基づく正のサンプリングである。
どちらのサンプリング手法も、EHRデータに特有の高いクラス内分散を意識して設計されている。
大規模都市保健システムに入院した患者5,712人を対象に,現実のCOVID-19 EHRデータの死亡リスクを予測し,高い競争力を持つ実験結果を得た。
具体的には, クロスエントロピー(0.873) と焦点損失(0.931) といった他の基準や代替手段を上回り, 高auroc 予測スコア 0.959 に達した。
関連論文リスト
- SeqRisk: Transformer-augmented latent variable model for improved survival prediction with longitudinal data [4.1476925904032464]
本研究では,変分オートエンコーダ (VAE) と長手VAE (LVAE) をトランスフォーマーエンコーダとコックス比例ハザードモジュールに結合してリスク予測を行う手法であるSeqRiskを提案する。
SeqRiskは、シミュレーションと実世界の両方のデータセットにおける既存のアプローチと比較して、競合的に機能することを示した。
論文 参考訳(メタデータ) (2024-09-19T12:35:25Z) - MCRAGE: Synthetic Healthcare Data for Fairness [3.0089659534785853]
そこで本稿では,MCRAGE (Generative Modeling) の強化による不均衡データセットの増大によるマイノリティクラス再バランスを提案する。
MCRAGEは、デノイング拡散確率モデル (Denoising Diffusion Probabilistic Model, CDDPM) を訓練し、未表現のクラスから高品質な合成EHRサンプルを生成する。
この合成データを使用して、既存の不均衡なデータセットを増大させ、その結果、すべてのクラスにまたがるよりバランスの取れた分散を実現します。
論文 参考訳(メタデータ) (2023-10-27T19:02:22Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z) - Categorical EHR Imputation with Generative Adversarial Nets [11.171712535005357]
本稿では,データ計算のためのGANに関する従来の研究を基にした,シンプルで効果的な手法を提案する。
従来のデータ計算手法に比べて予測精度が大幅に向上していることを示す。
論文 参考訳(メタデータ) (2021-08-03T18:50:26Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Generation of Differentially Private Heterogeneous Electronic Health
Records [9.926231893220061]
本稿では, 合成異種EHRの生成にジェネレーティブ・アドバーサリアル・ネットワークを用いて検討する。
本稿では,DP 合成 EHR データセットを作成するために,差分プライバシ(DP)保存最適化の適用について検討する。
論文 参考訳(メタデータ) (2020-06-05T13:21:46Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。