論文の概要: Nationwide EHR-Based Chronic Rhinosinusitis Prediction Using Demographic-Stratified Models
- arxiv url: http://arxiv.org/abs/2605.05213v1
- Date: Thu, 16 Apr 2026 21:27:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.597615
- Title: Nationwide EHR-Based Chronic Rhinosinusitis Prediction Using Demographic-Stratified Models
- Title(参考訳): 人口統計モデルを用いた全国EHRによる慢性鼻鼻炎予測
- Authors: Sicong Chang, Yidan Shen, Justina Varghese, Akshay R Prabhakar, Sebastian Guadarrama-Sistos-Vazquez, Jiefu Chen, Masayoshi Takashima, Omar G. Ahmed, Renjie Hu, Xin Fu,
- Abstract要約: 慢性副鼻腔炎 (CRS) は、一般的な異種性炎症性疾患であり、かなりの死亡率と医療費を引き起こす。
以前の予測研究はしばしば単一施設のコホートに依存しており、人口レベルの一般化性が低下する。
全国の縦断的ERHデータを用いて,2年間の診断履歴を用いてCRSの診断を予測した。
- 参考スコア(独自算出の注目度): 5.410845855301495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chronic rhinosinusitis (CRS) is a common heterogeneous inflammatory disorder that causes substantial morbidity and healthcare costs. CRS is difficult to identify early from routine encounters, as symptom presentations overlap with common conditions such as allergic rhinitis, and heterogeneous phenotypes further obscure risk patterns. Prior predictive studies often rely on single-institutional cohorts , which reduce population-level generalizability. To overcome this, we leveraged nationwide longitudinal EHR data from the \textit{All of Us} Research Program to predict CRS diagnosis using two years of pre-diagnostic history. To address extreme feature sparsity and dimensionality in coded EHR data, we implemented a hybrid feature-selection pipeline that combines prevalence-based statistical screening with model-based importance ranking, compressing approximately 110,000 candidate codes into 100 interpretable features. To capture demographic heterogeneity, we trained demographic stratified models across six adult sex and life-stage subgroups with subgroup-specific hyperparameter tuning. Our framework achieved an overall AUC of 0.8461, improving discrimination by 0.0168 over the best baseline. These results demonstrate that routinely collected EHR data may support population-representative CRS risk stratification and inform earlier triage and referral prioritization in primary care.
- Abstract(参考訳): 慢性副鼻腔炎 (CRS) は、一般的な異種性炎症性疾患であり、かなりの死亡率と医療費を引き起こす。
症状の提示はアレルギー性鼻炎などの一般的な症状と重なり、異種性表現型はさらに不明瞭なリスクパターンである。
以前の予測研究はしばしば単一施設のコホートに依存しており、人口レベルの一般化性が低下する。
そこで我々は,2年間の診断履歴を用いたCRS診断の予測に,全国の縦断的ERHデータを活用した。
符号化されたEHRデータにおける極端な特徴空間性と次元性に対処するため、有病率に基づく統計的スクリーニングとモデルに基づく重要度ランキングを組み合わせ、約110,000の候補コードを100個の解釈可能な特徴に圧縮するハイブリッド特徴選択パイプラインを実装した。
人口動態の不均一性を把握するために,6つの成人性および生活段階のサブグループを対象に,サブグループ特異的なハイパーパラメータチューニングによる人口層階層化モデルを訓練した。
我々のフレームワークはAUC全体の0.8461を達成し、最高のベースラインに対する差別を0.0168改善した。
これらの結果から, 日常的に収集されたERHデータは, 人口適応型CRSリスク階層化を支援し, プライマリケアにおける早期トリアージとレファレンシャル優先順位付けを通知する可能性が示唆された。
関連論文リスト
- DANIEL: A Distributed and Scalable Approach for Global Representation Learning with EHR Applications [8.530466871734564]
確率的クラスタリングモデルは、現代のデータ環境において根本的な課題に直面します。
分散フレームワークを開発し、バイナリデータからスケーラブルでプライバシ表現を学習する。
本アルゴリズムは,多施設電子健康記録(EHR)データセットを用いて評価する。
論文 参考訳(メタデータ) (2025-11-04T17:35:12Z) - Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models [70.64969663547703]
AdaCVDは、英国バイオバンクから50万人以上の参加者を対象に、大規模な言語モデルに基づいて構築された適応可能なCVDリスク予測フレームワークである。
包括的かつ可変的な患者情報を柔軟に取り込み、構造化データと非構造化テキストの両方をシームレスに統合し、最小限の追加データを使用して新規患者の集団に迅速に適応する。
論文 参考訳(メタデータ) (2025-05-30T14:42:02Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - MixEHR-SurG: a joint proportional hazard and guided topic model for inferring mortality-associated topics from electronic health records [18.87817671852005]
ヘテロジニアスEHRデータとモデル生存ハザードを同時に統合するために、MixEHR-SurGと呼ばれる教師付きトピックモデルを提案する。
これにより、患者死亡に関連するPheCode固有の表現型トピックを推測できる、高度に解釈可能なサバイバルトピックモデルが導かれる。
論文 参考訳(メタデータ) (2023-12-20T22:13:45Z) - Tree-Guided Rare Feature Selection and Logic Aggregation with Electronic
Health Records Data [7.422597776308963]
希少な二項特徴を持つ大規模回帰のための木誘導的特徴選択と論理集約手法を提案する。
EHRデータを用いた自殺リスクスタディでは、我々のアプローチは、以前のメンタルヘルス診断を選択して集約することができる。
論文 参考訳(メタデータ) (2022-06-18T03:52:43Z) - SurvLatent ODE : A Neural ODE based time-to-event model with competing
risks for longitudinal data improves cancer-associated Deep Vein Thrombosis
(DVT) prediction [68.8204255655161]
本稿では,不規則なサンプルデータの下で潜在表現をパラメータ化する生成時間対イベントモデルSurvLatent ODEを提案する。
そこで,本モデルでは,事象特異的ハザード関数の形状を指定せずに,複数の競合イベントの生存時間を柔軟に推定する。
SurvLatent ODEは、DVTリスクグループを成層化するために、現在の臨床標準であるKhorana Riskスコアより優れている。
論文 参考訳(メタデータ) (2022-04-20T17:28:08Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。