論文の概要: SurvBench: A Standardised Preprocessing Pipeline for Multi-Modal Electronic Health Record Survival Analysis
- arxiv url: http://arxiv.org/abs/2511.11935v1
- Date: Fri, 14 Nov 2025 23:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.406795
- Title: SurvBench: A Standardised Preprocessing Pipeline for Multi-Modal Electronic Health Record Survival Analysis
- Title(参考訳): SurvBench: マルチモーダル電子健康記録サバイバル分析のための標準化された前処理パイプライン
- Authors: Munib Mesinovic, Tingting Zhu,
- Abstract要約: 本稿では、SurvBenchについて述べる。SurvBenchは、生のPhyloNetデータセットをマルチモーダルサバイバル分析のためのモデル対応テンソルに変換する、包括的でオープンソースの前処理パイプラインである。
SurvBenchは、MIMIC-IV、eICU、MC-MEDの3つの主要なクリティカルケアデータベースにデータローダを提供する。
パイプラインは厳格なデータ品質管理、データ漏洩を防止するための患者レベルの分割、明確な欠陥追跡、標準化された時間的集約を実装している。
- 参考スコア(独自算出の注目度): 2.74994442100348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Electronic health record (EHR) data present tremendous opportunities for advancing survival analysis through deep learning, yet reproducibility remains severely constrained by inconsistent preprocessing methodologies. We present SurvBench, a comprehensive, open-source preprocessing pipeline that transforms raw PhysioNet datasets into standardised, model-ready tensors for multi-modal survival analysis. SurvBench provides data loaders for three major critical care databases, MIMIC-IV, eICU, and MC-MED, supporting diverse modalities including time-series vitals, static demographics, ICD diagnosis codes, and radiology reports. The pipeline implements rigorous data quality controls, patient-level splitting to prevent data leakage, explicit missingness tracking, and standardised temporal aggregation. SurvBench handles both single-risk (e.g., in-hospital mortality) and competing-risks scenarios (e.g., multiple discharge outcomes). The outputs are compatible with pycox library packages and implementations of standard statistical and deep learning models. By providing reproducible, configuration-driven preprocessing with comprehensive documentation, SurvBench addresses the "preprocessing gap" that has hindered fair comparison of deep learning survival models, enabling researchers to focus on methodological innovation rather than data engineering.
- Abstract(参考訳): 電子健康記録(EHR)データは、深層学習を通じて生存分析を推し進める大きな機会を提供するが、再現性は一貫性のない前処理手法によって厳しく制限されている。
本稿では、SurvBenchについて述べる。SurvBenchは、生のPhyloNetデータセットを、マルチモーダルサバイバル分析のための標準化されたモデル対応テンソルに変換する、包括的でオープンソースの前処理パイプラインである。
SurvBenchは、MIMIC-IV、eICU、MC-MEDの3つの主要なクリティカルケアデータベースにデータローダを提供し、時系列のバイタル、静的な統計、ICD診断コード、放射線学レポートなどの様々なモダリティをサポートする。
パイプラインは厳格なデータ品質管理、データ漏洩を防止するための患者レベルの分割、明確な欠陥追跡、標準化された時間的集約を実装している。
SurvBenchはシングルリスク(例:院内死亡)と競合リスク(例:複数の退院結果)の両方を扱う。
出力はpycoxライブラリパッケージと標準統計およびディープラーニングモデルの実装と互換性がある。
再現可能な、構成駆動の事前処理を包括的なドキュメントで提供することで、SurvBench氏は、ディープラーニングサバイバルモデルの公正な比較を妨げる"事前処理ギャップ"に対処し、研究者がデータエンジニアリングよりも方法論的なイノベーションに集中できるようにする。
関連論文リスト
- Deep Survival Analysis for Competing Risk Modeling with Functional Covariates and Missing Data Imputation [13.108896747775063]
本稿では、競合リスク下での離散時間生存分析のための統合ディープラーニングフレームワークFCRNを紹介する。
関数データ表現のためのマイクロネットワークバス層と勾配ベースの計算モジュールを組み合わせることで、FCRNは、欠落した値をインプットし、イベント固有のハザードを予測することを同時に学習する。
論文 参考訳(メタデータ) (2025-09-29T18:33:00Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - impuTMAE: Multi-modal Transformer with Masked Pre-training for Missing Modalities Imputation in Cancer Survival Prediction [75.43342771863837]
我々は,効率的なマルチモーダル事前学習戦略を備えた新しいトランスフォーマーに基づくエンドツーエンドアプローチである impuTMAE を紹介する。
マスクされたパッチを再構築することで、モダリティの欠如を同時に示唆しながら、モダリティ間の相互作用とモダリティ内相互作用を学習する。
本モデルは,TGA-GBM/LGGとBraTSデータセットを用いたグリオーマ生存予測のために,異種不完全データに基づいて事前訓練を行った。
論文 参考訳(メタデータ) (2025-08-08T10:01:16Z) - Deep Survival Analysis in Multimodal Medical Data: A Parametric and Probabilistic Approach with Competing Risks [47.19194118883552]
単一リスクシナリオと競合リスクシナリオの両方をモデル化可能な生存分析のためのマルチモーダルディープラーニングフレームワークを提案する。
生存予測のための新しいディープラーニングアーキテクチャであるSAMVAE(Survival Analysis Multimodal Variational Autoencoder)を提案する。
論文 参考訳(メタデータ) (2025-07-10T14:29:48Z) - Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。
包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文 参考訳(メタデータ) (2025-05-30T14:42:02Z) - SurvHive: a package to consistently access multiple survival-analysis packages [0.0]
SurvHiveはPythonベースのフレームワークで、Scikit-learnをモデルとしたコヒーレントかつインターフェース内でサバイバル分析メソッドを統合するように設計されている。
SurvHiveは古典的な統計モデルと最先端のディープラーニングアプローチを統合しており、トランスフォーマーベースのアーキテクチャやパラメトリックサバイバルモデルを含んでいる。
論文 参考訳(メタデータ) (2025-02-04T11:02:40Z) - CAAT-EHR: Cross-Attentional Autoregressive Transformer for Multimodal Electronic Health Record Embeddings [0.0]
本稿では,タスク非依存の縦埋め込みを生のEHRデータから生成する新しいアーキテクチャであるCAAT-EHRを紹介する。
自己回帰デコーダは、事前訓練中に将来の時刻データを予測してエンコーダを補完し、その結果の埋め込みが時間的整合性と整合性を維持する。
論文 参考訳(メタデータ) (2025-01-31T05:00:02Z) - MIBP-Cert: Certified Training against Data Perturbations with Mixed-Integer Bilinear Programs [50.41998220099097]
トレーニング中のデータエラー、汚職、中毒攻撃は、現代のAIシステムの信頼性に大きな脅威をもたらす。
混合整数双線形プログラミング(MIBP)に基づく新しい認証手法MIBP-Certを紹介する。
摂動データや操作データを通じて到達可能なパラメータの集合を計算することで、可能なすべての結果を予測することができ、堅牢性を保証することができる。
論文 参考訳(メタデータ) (2024-12-13T14:56:39Z) - Multi-modal Data Binding for Survival Analysis Modeling with Incomplete Data and Annotations [19.560652381770243]
我々は、モダリティと検閲されたサバイバルラベルにまたがる不完全なデータを同時に扱う新しいフレームワークを導入する。
我々のアプローチでは、高度な基礎モデルを用いて個々のモダリティを符号化し、それらを普遍的な表現空間に整列させる。
提案手法は,2つのサバイバル分析タスクにおいて,両者が適用したデータセットの予測精度に優れることを示す。
論文 参考訳(メタデータ) (2024-07-25T02:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。