論文の概要: Semi-supervised Clustering Through Representation Learning of Large-scale EHR Data
- arxiv url: http://arxiv.org/abs/2505.20731v1
- Date: Tue, 27 May 2025 05:20:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.419576
- Title: Semi-supervised Clustering Through Representation Learning of Large-scale EHR Data
- Title(参考訳): 大規模EHRデータの表現学習による半教師付きクラスタリング
- Authors: Linshanshan Wang, Mengyan Li, Zongqi Xia, Molei Liu, Tianxi Cai,
- Abstract要約: SCOREは、患者埋め込みを通じて多領域の疾患プロファイルをキャプチャする半教師付き表現学習フレームワークである。
大規模データの計算課題に対処するため、ハイブリッド期待最大化(EM)とガウス変分近似(GVA)アルゴリズムを導入している。
分析の結果,ラベル付きデータの導入により精度が向上し,ラベル不足に対する感度が低下することがわかった。
- 参考スコア(独自算出の注目度): 5.591260685112265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic Health Records (EHR) offer rich real-world data for personalized medicine, providing insights into disease progression, treatment responses, and patient outcomes. However, their sparsity, heterogeneity, and high dimensionality make them difficult to model, while the lack of standardized ground truth further complicates predictive modeling. To address these challenges, we propose SCORE, a semi-supervised representation learning framework that captures multi-domain disease profiles through patient embeddings. SCORE employs a Poisson-Adapted Latent factor Mixture (PALM) Model with pre-trained code embeddings to characterize codified features and extract meaningful patient phenotypes and embeddings. To handle the computational challenges of large-scale data, it introduces a hybrid Expectation-Maximization (EM) and Gaussian Variational Approximation (GVA) algorithm, leveraging limited labeled data to refine estimates on a vast pool of unlabeled samples. We theoretically establish the convergence of this hybrid approach, quantify GVA errors, and derive SCORE's error rate under diverging embedding dimensions. Our analysis shows that incorporating unlabeled data enhances accuracy and reduces sensitivity to label scarcity. Extensive simulations confirm SCORE's superior finite-sample performance over existing methods. Finally, we apply SCORE to predict disability status for patients with multiple sclerosis (MS) using partially labeled EHR data, demonstrating that it produces more informative and predictive patient embeddings for multiple MS-related conditions compared to existing approaches.
- Abstract(参考訳): EHR(Electronic Health Records)は、パーソナライズされた医療のための豊富な現実世界のデータを提供し、疾患の進行、治療反応、患者の結果に関する洞察を提供する。
しかし、その空間性、異質性、高次元性はモデリングを難しくする一方、標準化された基底真理の欠如は予測モデリングをさらに複雑にする。
これらの課題に対処するために,患者埋め込みを通じて多領域の疾患プロファイルをキャプチャする半教師付き表現学習フレームワークSCOREを提案する。
SCORE は Poisson-Adapted Latent Factor Mixture (PALM) モデルを採用し、コード化された特徴を特徴付け、意味のある患者表現型や埋め込みを抽出する。
大規模データの計算課題に対処するため、有限ラベル付きデータを利用してラベルなしサンプルの広大なプールの見積もりを精査する、ハイブリッド期待最大化(EM)とガウス変分近似(GVA)アルゴリズムを導入している。
我々は、このハイブリッドアプローチの収束を理論的に確立し、GVA誤差を定量化し、埋め込み次元のばらつきの下でSCOREの誤差率を導出する。
分析の結果,ラベル付きデータの導入により精度が向上し,ラベル不足に対する感度が低下することがわかった。
大規模シミュレーションにより、SCOREの既存手法よりも優れた有限サンプル性能が確認された。
最後に,ERHデータを用いた多発性硬化症(MS)患者の障害状態の予測にSCOREを適用した。
関連論文リスト
- MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - PRISM: Mitigating EHR Data Sparsity via Learning from Missing Feature Calibrated Prototype Patient Representations [7.075420686441701]
PRISMは、類似した患者のプロトタイプ表現を活用することで、データを間接的にインプットするフレームワークである。
PRISMには、ステータスの欠如を考慮した各機能の信頼性を評価する機能信頼モジュールも含まれている。
MIMIC-III, MIMIC-IV, PhysioNet Challenge 2012, eICU データセットを用いた実験により, PRISM の院内死亡予測と30日間の読解作業における優れた性能が示された。
論文 参考訳(メタデータ) (2023-09-08T07:01:38Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Handling Non-ignorably Missing Features in Electronic Health Records
Data Using Importance-Weighted Autoencoders [8.518166245293703]
本稿では,生体データのランダムなパターンではなく,欠落を柔軟に扱うために,重要度重み付きオートエンコーダ(iwaes)と呼ばれるvaesの新たな拡張を提案する。
提案手法は,組み込みニューラルネットワークを用いて欠落機構をモデル化し,欠落機構の正確な形式を事前に指定する必要をなくした。
論文 参考訳(メタデータ) (2021-01-18T22:53:29Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。