論文の概要: Cross-Representation Benchmarking in Time-Series Electronic Health Records for Clinical Outcome Prediction
- arxiv url: http://arxiv.org/abs/2510.09159v1
- Date: Fri, 10 Oct 2025 09:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.934625
- Title: Cross-Representation Benchmarking in Time-Series Electronic Health Records for Clinical Outcome Prediction
- Title(参考訳): 臨床成績予測のための時系列電子健康記録の相互表現ベンチマーク
- Authors: Tianyi Chen, Mingcheng Zhu, Zhiyao Luo, Tingting Zhu,
- Abstract要約: このベンチマークは、2つの異なる臨床環境におけるデータキュレーションと評価を標準化する。
実験によると、イベントストリームモデルは、常に最強のパフォーマンスを提供する。
特徴選択戦略は臨床環境に適応する必要がある。
- 参考スコア(独自算出の注目度): 44.23284500920266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Electronic Health Records (EHRs) enable deep learning for clinical predictions, but the optimal method for representing patient data remains unclear due to inconsistent evaluation practices. We present the first systematic benchmark to compare EHR representation methods, including multivariate time-series, event streams, and textual event streams for LLMs. This benchmark standardises data curation and evaluation across two distinct clinical settings: the MIMIC-IV dataset for ICU tasks (mortality, phenotyping) and the EHRSHOT dataset for longitudinal care (30-day readmission, 1-year pancreatic cancer). For each paradigm, we evaluate appropriate modelling families--including Transformers, MLP, LSTMs and Retain for time-series, CLMBR and count-based models for event streams, 8-20B LLMs for textual streams--and analyse the impact of feature pruning based on data missingness. Our experiments reveal that event stream models consistently deliver the strongest performance. Pre-trained models like CLMBR are highly sample-efficient in few-shot settings, though simpler count-based models can be competitive given sufficient data. Furthermore, we find that feature selection strategies must be adapted to the clinical setting: pruning sparse features improves ICU predictions, while retaining them is critical for longitudinal tasks. Our results, enabled by a unified and reproducible pipeline, provide practical guidance for selecting EHR representations based on the clinical context and data regime.
- Abstract(参考訳): 電子健康記録(EHR)は、臨床予測のための深層学習を可能にするが、不整合性評価プラクティスのため、患者データを表現するための最適な方法が不明である。
本稿では,多変量時系列,イベントストリーム,LLMのためのテキストイベントストリームなど,EHR表現法を比較するための最初の体系的ベンチマークを提案する。
このベンチマークは、ICUタスク用MIMIC-IVデータセット(死、表現型)と縦断治療用ERHSHOTデータセット(30日間の可読性、1年間の膵癌)の2つの異なる臨床環境におけるデータキュレーションと評価を標準化する。
各パラダイムに対して、時系列のトランスフォーマー、MLP、LSTM、Retain、イベントストリームのCLMBR、テキストストリームの8-20B LLMなど、適切なモデリングファミリの評価を行い、データ不足に基づく機能プルーニングの影響を分析する。
我々の実験によると、イベントストリームモデルは、常に最強のパフォーマンスを提供する。
CLMBRのような事前訓練されたモデルは、数ショット設定で非常にサンプリング効率が高いが、十分なデータがあれば、単純なカウントベースモデルと競合することがある。
さらに, 機能選択戦略は臨床環境に適応しなくてはならないこと, スパース特徴の刈り取りはICU予測を改善し, 維持は縦断作業に欠かせないことが確認された。
本研究は, 統合的かつ再現可能なパイプラインによって実現され, 臨床状況とデータ構造に基づいて, EHR 表現を選択するための実践的ガイダンスを提供する。
関連論文リスト
- Analysis of Transferability Estimation Metrics for Surgical Phase Recognition [3.3285108719932555]
微調整された事前学習モデルは現代の機械学習の基盤となり、限られたラベル付きデータで実践者がハイパフォーマンスを達成できるようになった。
専門的アノテーションが特に時間がかかり費用がかかる外科的ビデオ解析では、下流タスクに最適な事前学習モデルを特定することが重要かつ困難である。
我々は,2つの多様なデータセット上で,LogME,H-Score,TransRateの3つの代表的な指標の総合ベンチマークを行った。
論文 参考訳(メタデータ) (2025-08-22T18:05:33Z) - A Copula Based Supervised Filter for Feature Selection in Diabetes Risk Prediction Using Machine Learning [0.0]
我々は,Gumbel copula上尾依存性係数(lambda_U$)を用いて特徴量をランク付けする計算効率の高い教師付きフィルタを提案する。
2つの糖尿病データセット上の4つの分類器で、Mutual Information、mRMR、ReliefF、および$L_1$ Elastic Netを比較した。
上肢依存によるコプラに基づく特徴選択は、公衆衛生・臨床医療におけるリスクモデル構築のための強力で効率的かつ解釈可能なアプローチである。
論文 参考訳(メタデータ) (2025-05-28T16:34:58Z) - Zero-shot Medical Event Prediction Using a Generative Pre-trained Transformer on Electronic Health Records [8.575985305475355]
生成事前学習型トランス (GPT) は, EHRにおける時系列データを利用して, 将来の事象を予測できる。
これらのモデルの微調整はタスク固有のパフォーマンスを高めるが、多くの臨床予測タスクに適用するとコストがかかる。
事前訓練された基礎モデルはゼロショット予測設定で使用することができ、結果ごとに微調整された個別モデルに代わるスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-03-07T19:26:47Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Time Associated Meta Learning for Clinical Prediction [78.99422473394029]
本稿では,時間関連メタラーニング(TAML)手法を提案する。
タスク分割後のスパーシリティ問題に対処するため、TAMLは時間情報共有戦略を採用し、正のサンプル数を増やす。
複数の臨床データセットに対するTAMLの有効性を示す。
論文 参考訳(メタデータ) (2023-03-05T03:54:54Z) - Analysis of lifelog data using optimal feature selection based
unsupervised logistic regression (OFS-ULR) for chronic disease classification [2.3909933791900326]
慢性疾患分類モデルは現在、より良い医療実践を探求するためにライフログデータの可能性を活用している。
本稿では,慢性疾患の分類に最適な特徴選択に基づく非教師なしロジスティック回帰モデル(OFS-ULR)を構築することを目的とする。
論文 参考訳(メタデータ) (2022-04-04T07:11:26Z) - MIA-Prognosis: A Deep Learning Framework to Predict Therapy Response [58.0291320452122]
本稿では,患者の予後と治療反応を予測するための統合型深層学習手法を提案する。
我々は,マルチモーダル非同期時系列分類タスクとして,確率モデリングを定式化する。
我々の予測モデルは、長期生存の観点から、低リスク、高リスクの患者をさらに階層化する可能性がある。
論文 参考訳(メタデータ) (2020-10-08T15:30:17Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。