論文の概要: Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data
- arxiv url: http://arxiv.org/abs/2104.02932v1
- Date: Wed, 7 Apr 2021 06:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:59:40.929038
- Title: Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data
- Title(参考訳): 自己のポジティブなサンプルをブートストラップする:電子健康記録データとの対比学習
- Authors: Tingyi Wanyan, Jing Zhang, Ying Ding, Ariful Azad, Zhangyang Wang,
Benjamin S Glicksberg
- Abstract要約: 本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
- 参考スコア(独自算出の注目度): 62.29031007761901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic Health Record (EHR) data has been of tremendous utility in
Artificial Intelligence (AI) for healthcare such as predicting future clinical
events. These tasks, however, often come with many challenges when using
classical machine learning models due to a myriad of factors including class
imbalance and data heterogeneity (i.e., the complex intra-class variances). To
address some of these research gaps, this paper leverages the exciting
contrastive learning framework and proposes a novel contrastive regularized
clinical classification model. The contrastive loss is found to substantially
augment EHR-based prediction: it effectively characterizes the
similar/dissimilar patterns (by its "push-and-pull" form), meanwhile mitigating
the highly skewed class distribution by learning more balanced feature spaces
(as also echoed by recent findings). In particular, when naively exporting the
contrastive learning to the EHR data, one hurdle is in generating positive
samples, since EHR data is not as amendable to data augmentation as image data.
To this end, we have introduced two unique positive sampling strategies
specifically tailored for EHR data: a feature-based positive sampling that
exploits the feature space neighborhood structure to reinforce the feature
learning; and an attribute-based positive sampling that incorporates
pre-generated patient similarity metrics to define the sample proximity. Both
sampling approaches are designed with an awareness of unique high intra-class
variance in EHR data. Our overall framework yields highly competitive
experimental results in predicting the mortality risk on real-world COVID-19
EHR data with a total of 5,712 patients admitted to a large, urban health
system. Specifically, our method reaches a high AUROC prediction score of
0.959, which outperforms other baselines and alternatives: cross-entropy(0.873)
and focal loss(0.931).
- Abstract(参考訳): EHR(Electronic Health Record)データは、将来の臨床イベントの予測など、医療のための人工知能(AI)において、非常に有用である。
しかしながら、これらのタスクは、クラス不均衡やデータ不均一性(複雑なクラス内分散)を含む無数の要因のために、古典的な機械学習モデルを使用する際に、多くの問題が発生する。
これらの研究のギャップに対処するため,本論文では,エキサイティングなコントラスト学習フレームワークを活用し,新しいコントラスト正規化臨床分類モデルを提案する。
対照的な損失は、EHRに基づく予測を大幅に増大させ、類似/異種パターン(push-and-pull形式)を効果的に特徴づける一方で、よりバランスの取れた特徴空間を学習することで、高度に歪んだクラス分布を緩和する(最近の研究でも同様に)。
特に、コントラスト学習をEHRデータにネーティブにエクスポートする場合、画像データとしてデータ拡張に適合しないため、肯定的なサンプルを生成することがハードルとなる。
この目的のために,ehrデータに特化された2つのユニークな正のサンプリング戦略を導入した。特徴空間近傍構造を活用した特徴に基づく正のサンプリングと,予め生成された患者類似度指標を組み込んだ属性に基づく正のサンプリングである。
どちらのサンプリング手法も、EHRデータに特有の高いクラス内分散を意識して設計されている。
大規模都市保健システムに入院した患者5,712人を対象に,現実のCOVID-19 EHRデータの死亡リスクを予測し,高い競争力を持つ実験結果を得た。
具体的には, クロスエントロピー(0.873) と焦点損失(0.931) といった他の基準や代替手段を上回り, 高auroc 予測スコア 0.959 に達した。
関連論文リスト
- Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Integrated Convolutional and Recurrent Neural Networks for Health Risk
Prediction using Patient Journey Data with Many Missing Values [9.418011774179794]
本稿では,統合畳み込みニューラルネットワークとリカレントニューラルネットワークを用いたEMH患者旅行データモデリングのためのエンドツーエンドアプローチを提案する。
本モデルでは,各患者旅行における長期的・短期的時間的パターンを抽出し,インパルスデータ生成を伴わずに,高レベルのEHRデータの欠落を効果的に処理することができる。
論文 参考訳(メタデータ) (2022-11-11T07:36:18Z) - Generating Synthetic Mixed-type Longitudinal Electronic Health Records
for Artificial Intelligent Applications [9.374416143268892]
EHR-M-GAN (Generative Adversarial Network, GAN) は、EHRデータを合成する。
EHR-M-GANは,141,488名の患者を対象とし,3つの公用集中治療単位データベース上で検証した。
論文 参考訳(メタデータ) (2021-12-22T17:17:34Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [62.50833099740977]
本稿では,EHRデータの特異な特徴を考慮に入れた,誘導バイアスに特化して設計された新しいアテンションフリーシーケンシャルモデルを提案する。
我々の主な応用分野は、医療資源を効果的に配分するための重要な課題である将来の医療利用を予測することである。
我々は,GSP(Generative Summary Pretraining)と呼ばれる自己指導型プレトレーニング戦略を採用する。GSPは過去の健康記録に基づいて,患者の過去の歴史における将来のウィンドウの要約統計を予測する。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z) - Categorical EHR Imputation with Generative Adversarial Nets [11.171712535005357]
本稿では,データ計算のためのGANに関する従来の研究を基にした,シンプルで効果的な手法を提案する。
従来のデータ計算手法に比べて予測精度が大幅に向上していることを示す。
論文 参考訳(メタデータ) (2021-08-03T18:50:26Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - A Generative Model to Synthesize EEG Data for Epileptic Seizure
Prediction [3.8271082752302137]
本稿では, 合成脳波サンプルを生成するための深層畳み込み生成対向ネットワークを提案する。
我々は合成データ、すなわち1クラスSVMと、畳み込みてんかん発作予測器(CESP)と呼ばれる新しい提案を2つの手法で検証する。
以上の結果から,CESPモデルでは78.11%,88.21%,FPR0.27/h,0.14/hの感度が得られた。
論文 参考訳(メタデータ) (2020-12-01T12:00:36Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Generation of Differentially Private Heterogeneous Electronic Health
Records [9.926231893220061]
本稿では, 合成異種EHRの生成にジェネレーティブ・アドバーサリアル・ネットワークを用いて検討する。
本稿では,DP 合成 EHR データセットを作成するために,差分プライバシ(DP)保存最適化の適用について検討する。
論文 参考訳(メタデータ) (2020-06-05T13:21:46Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。