論文の概要: A Weakly Supervised Transformer for Rare Disease Diagnosis and Subphenotyping from EHRs with Pulmonary Case Studies
- arxiv url: http://arxiv.org/abs/2507.02998v2
- Date: Thu, 16 Oct 2025 22:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 15:58:54.388207
- Title: A Weakly Supervised Transformer for Rare Disease Diagnosis and Subphenotyping from EHRs with Pulmonary Case Studies
- Title(参考訳): 肺疾患の診断・下垂体手術における軽度改善型トランスフォーマーの検討
- Authors: Kimberly F. Greco, Zongxin Yang, Mengyan Li, Han Tong, Sara Morini Sweet, Alon Geva, Kenneth D. Mandl, Benjamin A. Raby, Tianxi Cai,
- Abstract要約: WEST(Wakly Supervised Transformer for rare disease phenotyping and subphenotyping from EHRs)を提案する。
ボストン小児病院のEHRデータを用いて2つの稀な肺疾患についてWESTを評価し, 表現型分類, 臨床的に有意な亜フェノタイプ同定, 疾患進行の予測において, 既存の方法よりも優れていることを示した。
- 参考スコア(独自算出の注目度): 28.253741893497136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rare diseases affect an estimated 300-400 million people worldwide, yet individual conditions remain underdiagnosed and poorly characterized due to their low prevalence and limited clinician familiarity. Computational phenotyping offers a scalable approach to improving rare disease detection, but algorithm development is hindered by the scarcity of high-quality labeled data for training. Expert-labeled datasets from chart reviews and registries are clinically accurate but limited in scope and availability, whereas labels derived from electronic health records (EHRs) provide broader coverage but are often noisy or incomplete. To address these challenges, we propose WEST (WEakly Supervised Transformer for rare disease phenotyping and subphenotyping from EHRs), a framework that combines routinely collected EHR data with a limited set of expert-validated cases and controls to enable large-scale phenotyping. At its core, WEST employs a weakly supervised transformer model trained on extensive probabilistic silver-standard labels - derived from both structured and unstructured EHR features - that are iteratively refined during training to improve model calibration. We evaluate WEST on two rare pulmonary diseases using EHR data from Boston Children's Hospital and show that it outperforms existing methods in phenotype classification, identification of clinically meaningful subphenotypes, and prediction of disease progression. By reducing reliance on manual annotation, WEST enables data-efficient rare disease phenotyping that improves cohort definition, supports earlier and more accurate diagnosis, and accelerates data-driven discovery for the rare disease community.
- Abstract(参考訳): 希少な病気は全世界で3~4億人と推定されている。
計算表現型は、希少な疾患の検出を改善するためのスケーラブルなアプローチを提供するが、アルゴリズムの開発は、トレーニングのための高品質なラベル付きデータの不足によって妨げられている。
グラフレビューやレジストリから得られた専門家ラベル付きデータセットは臨床的に正確だが、スコープと可用性には制限がある。
これらの課題に対処するために、定期的に収集されたEHRデータと、専門家検証されたケースの限定セットと制御を組み合わせた大規模な表現を可能にするフレームワークであるWEST(Weakly Supervised Transformer for rare disease phenotyping and subphenotyping from EHRs)を提案する。
中心となるものとして、WESTは、モデルキャリブレーションを改善するためにトレーニング中に反復的に改良された、広範囲な確率的銀標準ラベル(構造的および非構造的EHR特徴から派生した)に基づいて訓練された弱い教師付きトランスフォーマーモデルを採用している。
ボストン小児病院のEHRデータを用いて2つの稀な肺疾患についてWESTを評価し, 表現型分類, 臨床的に有意な亜フェノタイプ同定, 疾患進行の予測において, 既存の方法よりも優れていることを示した。
手動のアノテーションへの依存を減らすことで、WESTはコホート定義を改善し、より早くより正確な診断をサポートし、レアな疾患コミュニティに対するデータ駆動的な発見を加速するデータ効率の高いレアな疾患表現を可能にする。
関連論文リスト
- Semi-supervised Clustering Through Representation Learning of Large-scale EHR Data [5.591260685112265]
SCOREは、患者埋め込みを通じて多領域の疾患プロファイルをキャプチャする半教師付き表現学習フレームワークである。
大規模データの計算課題に対処するため、ハイブリッド期待最大化(EM)とガウス変分近似(GVA)アルゴリズムを導入している。
分析の結果,ラベル付きデータの導入により精度が向上し,ラベル不足に対する感度が低下することがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:20:17Z) - Large Language Models with Retrieval-Augmented Generation for Zero-Shot
Disease Phenotyping [1.8630636381951384]
大規模言語モデル(LLM)はテキスト理解の約束を提供するが、実際の臨床文書を効率的に扱うことはできない。
検索拡張生成とMapReduceにより強化されたゼロショットLLM法を提案する。
肺動脈圧の上昇を特徴とする稀な疾患である肺高血圧症(PH)に対して本法を適用した。
論文 参考訳(メタデータ) (2023-12-11T15:45:27Z) - Hierarchical Knowledge Guided Learning for Real-world Retinal Diseases
Recognition [20.88407972858568]
眼科AIで最近発表されたいくつかのデータセットは、40種類以上の網膜疾患からなり、複雑な異常と様々な致死性がある。
モデリングの観点からは、これらのデータセットでトレーニングされたほとんどのディープラーニングモデルは、まれな疾患に一般化する能力に欠ける可能性がある。
本稿では,網膜疾患認識のための長期データベースから深部ニューラルネットワークを学習するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-17T05:44:39Z) - Unsupervised Representation Learning Meets Pseudo-Label Supervised
Self-Distillation: A New Approach to Rare Disease Classification [26.864435224276964]
本稿では,2つの重要な新奇性を有するレア疾患分類への新しいハイブリッドアプローチを提案する。
まず、自己監督型コントラスト損失に基づく教師なし表現学習(URL)を採用する。
第二に、これらのURLを擬似ラベル管理分類と統合し、稀な疾患に関する知識を効果的に自己蒸留する。
論文 参考訳(メタデータ) (2021-10-09T12:56:09Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z) - Deep Representation Learning of Electronic Health Records to Unlock
Patient Stratification at Scale [0.5498849973527224]
ヘテロジニアスEHRを処理するためのディープラーニングに基づく教師なしフレームワークを提案する。
患者層形成を効果的かつ効果的に行うことができる患者表現を導出する。
論文 参考訳(メタデータ) (2020-03-14T00:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。