論文の概要: Preventing Data Leakage in EEG-Based Survival Prediction: A Two-Stage Embedding and Transformer Framework
- arxiv url: http://arxiv.org/abs/2603.25923v1
- Date: Thu, 26 Mar 2026 21:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.282179
- Title: Preventing Data Leakage in EEG-Based Survival Prediction: A Two-Stage Embedding and Transformer Framework
- Title(参考訳): 脳波を用いた生存予測におけるデータの漏洩防止:2段階埋め込みとトランスフォーマーフレームワーク
- Authors: Yixin Zhou, Zhixiang Liu, Vladimir I. Zadorozhny, Jonathan Elmer,
- Abstract要約: 深層学習モデルは、心停止後のコマトース患者の脳波による予後予測において有望であることが示されている。
しかし、その信頼性はしばしば微妙なデータ漏洩によって損なわれます。
本研究では,多段階脳波モデリングパイプラインにおいて,これまで見過ごされていたデータ漏洩形態を同定する。
- 参考スコア(独自算出の注目度): 0.6509758931804478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models have shown promise in EEG-based outcome prediction for comatose patients after cardiac arrest, but their reliability is often compromised by subtle forms of data leakage. In particular, when long EEG recordings are segmented into short windows and reused across multiple training stages, models may implicitly encode and propagate label information, leading to overly optimistic validation performance and poor generalization. In this study, we identify a previously overlooked form of data leakage in multi-stage EEG modeling pipelines. We demonstrate that violating strict patient-level separation can significantly inflate validation metrics while causing substantial degradation on independent test data. To address this issue, we propose a leakage-aware two-stage framework. In the first stage, short EEG segments are transformed into embedding representations using a convolutional neural network with an ArcFace objective. In the second stage, a Transformer-based model aggregates these embeddings to produce patient-level predictions, with strict isolation between training cohorts to eliminate leakage pathways. Experiments on a large-scale EEG dataset of post-cardiac-arrest patients show that the proposed framework achieves stable and generalizable performance under clinically relevant constraints, particularly in maintaining high sensitivity at stringent specificity thresholds. These results highlight the importance of rigorous data partitioning and provide a practical solution for reliable EEG-based outcome prediction.
- Abstract(参考訳): 深層学習モデルでは、心臓停止後のコマトース患者の脳波による予後予測が期待されているが、その信頼性は微妙なデータ漏洩によって損なわれることが多い。
特に、長い脳波記録が短いウィンドウに分割され、複数の訓練段階にわたって再利用される場合、モデルは暗黙的にラベル情報をエンコードし、伝播し、過度に楽観的な検証性能と一般化不良をもたらす。
本研究では,多段階脳波モデリングパイプラインにおいて,これまで見過ごされていたデータ漏洩形態を同定する。
厳密な患者レベルの分離に違反すると、独立したテストデータに重大な劣化が生じながら、バリデーションの指標が著しく低下することを示した。
この問題に対処するため,リーク対応の2段階フレームワークを提案する。
最初の段階では、短いEEGセグメントはArcFaceの目的を持つ畳み込みニューラルネットワークを使用して埋め込み表現に変換される。
第2段階では、Transformerベースのモデルが、これらの埋め込みを集約して患者レベルの予測を生成し、トレーニングコホート間の厳密な隔離によって漏洩経路を排除します。
心停止後患者の脳波データセットの大規模実験により, 臨床上の制約下での安定かつ一般化可能な性能, 特に厳密な特異性閾値における高感度の維持が得られた。
これらの結果は、厳密なデータ分割の重要性を強調し、信頼性の高い脳波に基づく結果予測のための実用的なソリューションを提供する。
関連論文リスト
- Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - Semi-supervised Clustering Through Representation Learning of Large-scale EHR Data [5.591260685112265]
SCOREは、患者埋め込みを通じて多領域の疾患プロファイルをキャプチャする半教師付き表現学習フレームワークである。
大規模データの計算課題に対処するため、ハイブリッド期待最大化(EM)とガウス変分近似(GVA)アルゴリズムを導入している。
分析の結果,ラベル付きデータの導入により精度が向上し,ラベル不足に対する感度が低下することがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:20:17Z) - SincVAE: A new semi-supervised approach to improve anomaly detection on EEG data using SincNet and variational autoencoder [0.0]
本研究では,脳波データからてんかん発作を検出するための半教師付きアプローチを提案する。
以上の結果から,SncVAEは脳波データにおける発作検出を改善し,早期発作の早期発見と術後経過のモニタリングが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T13:21:01Z) - Early Warning Prediction with Automatic Labeling in Epilepsy Patients [4.6700203020828885]
本稿では,初期文字信号の予測を改善するメタ学習フレームワークを提案する。
提案された双方向最適化フレームワークは、初期段階におけるノイズの多いデータを自動的にラベル付けするのに役立つ。
論文 参考訳(メタデータ) (2023-10-09T18:12:46Z) - Generalizing electrocardiogram delineation: training convolutional
neural networks with synthetic data augmentation [63.51064808536065]
ECGのデライン化のための既存のデータベースは小さく、サイズやそれらが表す病態の配列に不足している。
まず、原データベースから抽出した基本セグメントのプールを与えられたECGトレースを確率的に合成し、その整合性のある合成トレースに配置するための一連のルールを考案した。
第二に、2つの新しいセグメンテーションに基づく損失関数が開発され、これは、正確な数の独立構造の予測を強制し、サンプル数の削減に焦点をあてて、より密接なセグメンテーション境界を創出することを目的としている。
論文 参考訳(メタデータ) (2021-11-25T10:11:41Z) - Multiple Organ Failure Prediction with Classifier-Guided Generative
Adversarial Imputation Networks [4.040013871160853]
多臓器不全 (MOF) は集中治療室 (ICU) 患者の死亡率が高い重篤な症候群である。
機械学習モデルを電子健康記録に適用することは、欠落した値の広範性のために難しい。
論文 参考訳(メタデータ) (2021-06-22T15:49:01Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - An Uncertainty-Driven GCN Refinement Strategy for Organ Segmentation [53.425900196763756]
本研究では,不確実性解析とグラフ畳み込みネットワークに基づくセグメンテーション改善手法を提案する。
半教師付きグラフ学習問題を定式化するために、特定の入力ボリュームにおける畳み込みネットワークの不確実性レベルを用いる。
本手法は膵臓で1%,脾臓で2%向上し,最先端のCRF改善法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-06T18:55:07Z) - Uncovering the structure of clinical EEG signals with self-supervised
learning [64.4754948595556]
教師付き学習パラダイムは、しばしば利用可能なラベル付きデータの量によって制限される。
この現象は脳波(EEG)などの臨床関連データに特に問題となる。
ラベルのないデータから情報を抽出することで、ディープニューラルネットワークとの競合性能に到達することができるかもしれない。
論文 参考訳(メタデータ) (2020-07-31T14:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。