論文の概要: Integrated Analysis for Electronic Health Records with Structured and Sporadic Missingness
- arxiv url: http://arxiv.org/abs/2506.09208v1
- Date: Tue, 10 Jun 2025 19:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.010478
- Title: Integrated Analysis for Electronic Health Records with Structured and Sporadic Missingness
- Title(参考訳): 構造的・散発的欠失を伴う電子健康記録の総合的分析
- Authors: Jianbin Tan, Yan Zhang, Chuan Hong, T. Tony Cai, Tianxi Cai, Anru R. Zhang,
- Abstract要約: 本稿では電子健康記録(EHR)に適した新しい計算法を提案する。
これらのギャップに対処することにより、本手法は、分析の統合、データ有用性の向上、および人口健康の理解を促進するための実用的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 11.56234410514708
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Objectives: We propose a novel imputation method tailored for Electronic Health Records (EHRs) with structured and sporadic missingness. Such missingness frequently arises in the integration of heterogeneous EHR datasets for downstream clinical applications. By addressing these gaps, our method provides a practical solution for integrated analysis, enhancing data utility and advancing the understanding of population health. Materials and Methods: We begin by demonstrating structured and sporadic missing mechanisms in the integrated analysis of EHR data. Following this, we introduce a novel imputation framework, Macomss, specifically designed to handle structurally and heterogeneously occurring missing data. We establish theoretical guarantees for Macomss, ensuring its robustness in preserving the integrity and reliability of integrated analyses. To assess its empirical performance, we conduct extensive simulation studies that replicate the complex missingness patterns observed in real-world EHR systems, complemented by validation using EHR datasets from the Duke University Health System (DUHS). Results: Simulation studies show that our approach consistently outperforms existing imputation methods. Using datasets from three hospitals within DUHS, Macomss achieves the lowest imputation errors for missing data in most cases and provides superior or comparable downstream prediction performance compared to benchmark methods. Conclusions: We provide a theoretically guaranteed and practically meaningful method for imputing structured and sporadic missing data, enabling accurate and reliable integrated analysis across multiple EHR datasets. The proposed approach holds significant potential for advancing research in population health.
- Abstract(参考訳): 目的: 構造的, 散発的欠損を有する電子健康記録(EHR)に適した新しい計算法を提案する。
このような欠如は、下流臨床応用のための異種EHRデータセットの統合においてしばしば起こる。
これらのギャップに対処することにより、本手法は、分析の統合、データ有用性の向上、および人口健康の理解を促進するための実用的なソリューションを提供する。
材料と方法:EHRデータの統合解析において,構造的および散発的欠落機構を実証することから始める。
次に、構造的および不均一に発生する欠落データを扱うために特別に設計された新しい計算フレームワークMacomsを紹介する。
我々は、Macomssの理論的保証を確立し、統合分析の完全性と信頼性を維持するための堅牢性を確保する。
実世界のEHRシステムで観測される複雑な欠損パターンを再現するシミュレーションを行い,デューク大学健康システム(DUHS)のEHRデータセットを用いた検証を行った。
結果: シミュレーション研究により, 提案手法は既存の計算手法より一貫して優れていることが示された。
DUHS内の3つの病院のデータセットを使用して、Macomssは、ほとんどのケースにおいて、欠落データに対する最小の計算エラーを達成し、ベンチマークメソッドと比較して、より優れた、あるいは同等の下流予測パフォーマンスを提供する。
結論: 構造的および散発的欠落データを解析するための理論的に保証され,実用的に意味のある方法を提供し,複数のEHRデータセットの正確かつ信頼性の高い統合分析を可能にする。
提案手法は、人口健康研究の進展に大きな可能性を秘めている。
関連論文リスト
- Semi-supervised Clustering Through Representation Learning of Large-scale EHR Data [5.591260685112265]
SCOREは、患者埋め込みを通じて多領域の疾患プロファイルをキャプチャする半教師付き表現学習フレームワークである。
大規模データの計算課題に対処するため、ハイブリッド期待最大化(EM)とガウス変分近似(GVA)アルゴリズムを導入している。
分析の結果,ラベル付きデータの導入により精度が向上し,ラベル不足に対する感度が低下することがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:20:17Z) - Targeted Data Fusion for Causal Survival Analysis Under Distribution Shift [46.84912148188679]
複数のデータソースにまたがる因果推論は、科学的発見の一般化性と複製性を高めるための有望な道を提供する。
既存のアプローチでは、検閲や離散的かつ連続的な時間の統合など、生存分析のユニークな課題に対処できない。
マルチソース設定におけるターゲットサイト固有の因果効果を推定する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-30T23:21:25Z) - Precision Adaptive Imputation Network : An Unified Technique for Mixed Datasets [0.0]
本研究では,データ再構成の高速化を目的とした新しいアルゴリズムである精度適応型インダクタンスネットワーク(PAIN)を紹介する。
PAINは統計手法、ランダム森林、オートエンコーダを統合する三段階プロセスを採用し、計算精度と効率のバランスを確保する。
この結果は、特に欠如が完全にランダムではない複雑なシナリオにおいて、データ分散を保存し、分析的整合性を維持するPAINの優れた能力を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-01-18T06:22:27Z) - Machine Learning for ALSFRS-R Score Prediction: Making Sense of the Sensor Data [44.99833362998488]
筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis、ALS)は、急速に進行する神経変性疾患である。
iDPP@CLEF 2024チャレンジを先導した今回の調査は,アプリから得られるセンサデータを活用することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-10T19:17:23Z) - ICU Bloodstream Infection Prediction: A Transformer-Based Approach for EHR Analysis [0.0]
本稿では,集中治療室(ICU)における電子健康記録(EHR)データの予測分析を目的とした新しいフレームワークであるRatchetEHRを紹介する。
R RatchetEHRは、RNN、LSTM、XGBoostなど、他の方法と比較して優れた予測性能を示している。
RatchetEHRにおける重要なイノベーションは、Graph Convolutional Transformer (GCT)コンポーネントの統合である。
論文 参考訳(メタデータ) (2024-05-01T19:00:30Z) - Towards Biologically Plausible and Private Gene Expression Data
Generation [47.72947816788821]
差分プライバシー(DP)で訓練された生成モデルは、下流アプリケーションのための合成データの作成において、ますます顕著になりつつある。
しかし、既存の文献は主に基本的なベンチマークデータセットに焦点を当てており、基本的なメトリクスと比較的単純なデータ分布にのみ有望な結果を報告する傾向にある。
本研究では,DP生成モデルが自然応用シナリオにおいてどのように機能するかを系統的に分析し,実世界の遺伝子発現データに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-07T14:39:11Z) - Missing Data Imputation Based on Dynamically Adaptable Structural Equation Modeling with Self-Attention [2.250580490933205]
本稿では自己注意法(SESA)を用いた動的適応型構造方程式モデリング(SEM)を提案する。
SESAは、自己保持機構を組み込むことにより、従来のSEMベースの手法を超えて革新する。
実験により,EHRの欠落データを効果的に処理するための,堅牢な予測SESA性能の達成を実証した。
論文 参考訳(メタデータ) (2023-08-23T19:01:17Z) - CEDAR: Communication Efficient Distributed Analysis for Regressions [9.50726756006467]
患者レベルのデータを共有することなく、複数のEHRデータベース上での分散学習への関心が高まっている。
本稿では,局所的な最適推定値を集約する通信効率のよい新しい手法を提案する。
本稿では,統計的推測法と差分プライバシーに関する理論的検討を行い,シミュレーションおよび実データ解析におけるその性能評価を行う。
論文 参考訳(メタデータ) (2022-07-01T09:53:44Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。