論文の概要: Data distribution impacts the performance and generalisability of contrastive learning-based foundation models of electrocardiograms
- arxiv url: http://arxiv.org/abs/2509.10369v1
- Date: Fri, 12 Sep 2025 16:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.152643
- Title: Data distribution impacts the performance and generalisability of contrastive learning-based foundation models of electrocardiograms
- Title(参考訳): 心電図の対比学習に基づく基礎モデルの性能と一般性に及ぼすデータ分布の影響
- Authors: Gul Rukh Khattak, Konstantinos Patlatzoglou, Joseph Barker, Libor Pastika, Boroumand Zeidaabadi, Ahmed El-Medany, Hesham Aggour, Yixiu Liang, Antonio H. Ribeiro, Jeffrey Annis, Antonio Luiz Pinho Ribeiro, Junbo Ge, Daniel B. Kramer, Jonathan W. Waks, Evan Brittain, Nicholas Peters, Fu Siong Ng, Arunashis Sau,
- Abstract要約: 患者心電図(CAPE)の基礎モデルによるコントラストと4つのコホートでの事前訓練について述べる。
我々は、コホート人口、健康状態、人口多様性が予測タスクの下流のパフォーマンスにどのように影響するかを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive learning is a widely adopted self-supervised pretraining strategy, yet its dependence on cohort composition remains underexplored. We present Contrasting by Patient Augmented Electrocardiograms (CAPE) foundation model and pretrain on four cohorts (n = 5,203,352), from diverse populations across three continents (North America, South America, Asia). We systematically assess how cohort demographics, health status, and population diversity influence the downstream performance for prediction tasks also including two additional cohorts from another continent (Europe). We find that downstream performance depends on the distributional properties of the pretraining cohort, including demographics and health status. Moreover, while pretraining with a multi-centre, demographically diverse cohort improves in-distribution accuracy, it reduces out-of-distribution (OOD) generalisation of our contrastive approach by encoding cohort-specific artifacts. To address this, we propose the In-Distribution Batch (IDB) strategy, which preserves intra-cohort consistency during pretraining and enhances OOD robustness. This work provides important insights for developing clinically fair and generalisable foundation models.
- Abstract(参考訳): コントラスト学習は、広く採用されている自己指導型事前学習戦略であるが、コホート構成への依存はいまだ未調査である。
患者心電図(CAPE)の基礎モデルと4つのコホート(n=5,203,352)の事前訓練を3大陸(北米,南アメリカ,アジア)で実施した。
我々は,他の大陸(ヨーロッパ)の2つのコホートを含む予測課題において,コホート人口,健康状態,人口多様性が下流のパフォーマンスに与える影響を系統的に評価した。
下流のパフォーマンスは、人口統計や健康状態など、事前学習したコホートの分布特性に依存することが判明した。
さらに,複数中心の人口的多様コホートによる事前訓練は,分布内精度を向上させる一方で,コホート固有のアーティファクトを符号化することで,コントラスト的アプローチのアウト・オブ・ディストリビューション(OOD)の一般化を低減する。
そこで本研究では, プレトレーニング中のコホート内一貫性を保ち, OODロバスト性を向上するIDB戦略を提案する。
この研究は、臨床的に公正で一般的な基礎モデルを開発するための重要な洞察を提供する。
関連論文リスト
- General Demographic Foundation Models for Enhancing Predictive Performance Across Diseases [0.39508022083907385]
本研究は、年齢や性別に合わせた基礎的表現フレームワークとして、GDP(General Demographic Pre-trained)モデルを提案する。
このモデルは,地域によって異なる多様な疾患と人口構成を持つデータセットを用いて,事前学習し,評価する。
論文 参考訳(メタデータ) (2025-09-09T02:02:27Z) - Evaluating the Fairness of the MIMIC-IV Dataset and a Baseline
Algorithm: Application to the ICU Length of Stay Prediction [65.268245109828]
本稿では、MIMIC-IVデータセットを用いて、滞在時間を予測するXGBoostバイナリ分類モデルにおける公平性とバイアスについて検討する。
この研究は、人口統計属性にわたるデータセットのクラス不均衡を明らかにし、データ前処理と特徴抽出を採用する。
この論文は、偏見を緩和するための公正な機械学習技術と、医療専門家とデータサイエンティストの協力的な努力の必要性について結論付けている。
論文 参考訳(メタデータ) (2023-12-31T16:01:48Z) - Density-Aware Personalized Training for Risk Prediction in Imbalanced
Medical Data [89.79617468457393]
不均衡率(クラス密度差)のトレーニングモデルは、最適以下の予測につながる可能性がある。
この不均衡問題に対するモデルトレーニングのためのフレームワークを提案する。
実世界の医療データセットにおけるモデルの性能向上を実証する。
論文 参考訳(メタデータ) (2022-07-23T00:39:53Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - STELAR: Spatio-temporal Tensor Factorization with Latent Epidemiological
Regularization [76.57716281104938]
我々は,多くの地域の流行傾向を同時に予測するテンソル法を開発した。
stelarは離散時間差分方程式のシステムを通じて潜在時間正規化を組み込むことで長期予測を可能にする。
我々は、カウンティレベルと州レベルのCOVID-19データの両方を用いて実験を行い、このモデルが流行の興味深い潜伏パターンを識別できることを示します。
論文 参考訳(メタデータ) (2020-12-08T21:21:47Z) - WRSE -- a non-parametric weighted-resolution ensemble for predicting
individual survival distributions in the ICU [0.251657752676152]
集中治療室(ICU)における死亡リスクの動的評価は、患者を階層化し、治療効果を知らせたり、早期警戒システムの一部として機能したりすることができる。
現状の確率モデルと競合する結果を示すとともに,2~9倍のトレーニング時間を大幅に短縮する。
論文 参考訳(メタデータ) (2020-11-02T10:13:59Z) - Predictive Modeling of ICU Healthcare-Associated Infections from
Imbalanced Data. Using Ensembles and a Clustering-Based Undersampling
Approach [55.41644538483948]
本研究は,集中治療室における危険因子の同定と医療関連感染症の予測に焦点をあてる。
感染発生率の低減に向けた意思決定を支援することを目的とする。
論文 参考訳(メタデータ) (2020-05-07T16:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。