論文の概要: A Weakly Supervised Transformer to Support Rare Disease Diagnosis from Electronic Health Records: Methods and Applications in Rare Pulmonary Disease
- arxiv url: http://arxiv.org/abs/2507.02998v1
- Date: Tue, 01 Jul 2025 23:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.51456
- Title: A Weakly Supervised Transformer to Support Rare Disease Diagnosis from Electronic Health Records: Methods and Applications in Rare Pulmonary Disease
- Title(参考訳): 電子カルテによる希少疾患診断支援のための弱改良型トランスフォーマー:希少肺疾患の方法と応用
- Authors: Kimberly F. Greco, Zongxin Yang, Mengyan Li, Han Tong, Sara Morini Sweet, Alon Geva, Kenneth D. Mandl, Benjamin A. Raby, Tianxi Cai,
- Abstract要約: 希少な病気は世界中で推定3億~4億人に影響を及ぼす。
計算表現型アルゴリズムは 希少な疾患の検出を 約束している
我々は,ゴールド標準ラベルの小さなセットと,反復的に更新された銀標準ラベルの量を組み合わせた,弱い教師付きトランスフォーマーベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.112294460618955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rare diseases affect an estimated 300-400 million people worldwide, yet individual conditions often remain poorly characterized and difficult to diagnose due to their low prevalence and limited clinician familiarity. While computational phenotyping algorithms show promise for automating rare disease detection, their development is hindered by the scarcity of labeled data and biases in existing label sources. Gold-standard labels from registries and expert chart reviews are highly accurate but constrained by selection bias and the cost of manual review. In contrast, labels derived from electronic health records (EHRs) cover a broader range of patients but can introduce substantial noise. To address these challenges, we propose a weakly supervised, transformer-based framework that combines a small set of gold-standard labels with a large volume of iteratively updated silver-standard labels derived from EHR data. This hybrid approach enables the training of a highly accurate and generalizable phenotyping model that scales rare disease detection beyond the scope of individual clinical expertise. Our method is initialized by learning embeddings of medical concepts based on their semantic meaning or co-occurrence patterns in EHRs, which are then refined and aggregated into patient-level representations via a multi-layer transformer architecture. Using two rare pulmonary diseases as a case study, we validate our model on EHR data from Boston Children's Hospital. Our framework demonstrates notable improvements in phenotype classification, identification of clinically meaningful subphenotypes through patient clustering, and prediction of disease progression compared to baseline methods. These results highlight the potential of our approach to enable scalable identification and stratification of rare disease patients for clinical care and research applications.
- Abstract(参考訳): 希少な病気は全世界で3~4億人と推定されているが、個々の疾患は、その頻度が低く、臨床医に親しみやすいため、不適切な特徴と診断が難しいことが多い。
計算表現型アルゴリズムは希少な疾患検出の自動化を約束するが、ラベル付きデータの不足と既存のラベルソースのバイアスによってその開発が妨げられる。
登録と専門家のチャートレビューのゴールドスタンダードラベルは非常に正確だが、選択バイアスと手作業によるレビューのコストによって制約されている。
対照的に、電子健康記録(EHR)から派生したラベルは、幅広い患者をカバーするが、かなりのノイズをもたらす可能性がある。
これらの課題に対処するため、我々は、少数のゴールドスタンダードラベルと、EHRデータから派生した大量の銀標準ラベルを組み合わせ、弱制御されたトランスフォーマーベースのフレームワークを提案する。
このハイブリッドアプローチは、個々の臨床専門知識の範囲を超えて希少な疾患の検出をスケールする、高度に正確で一般化可能な表現型モデルのトレーニングを可能にする。
本手法は, EHRにおける意味的意味や共起パターンに基づいて, 医療概念の埋め込みを学習し, 多層トランスフォーマーアーキテクチャを用いて患者レベルの表現に集約する。
2つの稀な肺疾患をケーススタディとして,ボストン小児病院のERHデータを用いたモデルの有効性を検証した。
本フレームワークは, 表現型分類, 患者クラスタリングによる臨床的に有意なサブフェノタイプ同定, および, ベースライン法と比較しての疾患進行の予測において, 顕著な改善を示す。
これらの結果から, 医療・研究への応用において, 稀な疾患患者をスケーラブルに同定・成層化するためのアプローチの可能性が示唆された。
関連論文リスト
- Semi-supervised Clustering Through Representation Learning of Large-scale EHR Data [5.591260685112265]
SCOREは、患者埋め込みを通じて多領域の疾患プロファイルをキャプチャする半教師付き表現学習フレームワークである。
大規模データの計算課題に対処するため、ハイブリッド期待最大化(EM)とガウス変分近似(GVA)アルゴリズムを導入している。
分析の結果,ラベル付きデータの導入により精度が向上し,ラベル不足に対する感度が低下することがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:20:17Z) - Large Language Models with Retrieval-Augmented Generation for Zero-Shot
Disease Phenotyping [1.8630636381951384]
大規模言語モデル(LLM)はテキスト理解の約束を提供するが、実際の臨床文書を効率的に扱うことはできない。
検索拡張生成とMapReduceにより強化されたゼロショットLLM法を提案する。
肺動脈圧の上昇を特徴とする稀な疾患である肺高血圧症(PH)に対して本法を適用した。
論文 参考訳(メタデータ) (2023-12-11T15:45:27Z) - Hierarchical Knowledge Guided Learning for Real-world Retinal Diseases
Recognition [20.88407972858568]
眼科AIで最近発表されたいくつかのデータセットは、40種類以上の網膜疾患からなり、複雑な異常と様々な致死性がある。
モデリングの観点からは、これらのデータセットでトレーニングされたほとんどのディープラーニングモデルは、まれな疾患に一般化する能力に欠ける可能性がある。
本稿では,網膜疾患認識のための長期データベースから深部ニューラルネットワークを学習するための新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-17T05:44:39Z) - Unsupervised Representation Learning Meets Pseudo-Label Supervised
Self-Distillation: A New Approach to Rare Disease Classification [26.864435224276964]
本稿では,2つの重要な新奇性を有するレア疾患分類への新しいハイブリッドアプローチを提案する。
まず、自己監督型コントラスト損失に基づく教師なし表現学習(URL)を採用する。
第二に、これらのURLを擬似ラベル管理分類と統合し、稀な疾患に関する知識を効果的に自己蒸留する。
論文 参考訳(メタデータ) (2021-10-09T12:56:09Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。