論文の概要: Revealing Interconnections between Diseases: from Statistical Methods to Large Language Models
- arxiv url: http://arxiv.org/abs/2510.04888v1
- Date: Mon, 06 Oct 2025 15:09:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.927243
- Title: Revealing Interconnections between Diseases: from Statistical Methods to Large Language Models
- Title(参考訳): 疾患間の相互接続の解明-統計的手法から大規模言語モデルへ-
- Authors: Alina Ermilova, Dmitrii Kornilov, Sofia Samoilova, Ekaterina Laptenkova, Anastasia Kolesnikova, Ekaterina Podplutova, Senotrusova Sofya, Maksim G. Sharaev,
- Abstract要約: 大規模臨床データの手動解析による疾患の相互関係の同定は、労働集約的であり、主観的であり、専門家の意見の不一致を招く。
本研究は,MIMIC-IV EHRのICD-10コードシーケンスとICD-10コードの全セットの2つのデータソースに基づいて,疾患関係を明らかにするための7つのアプローチを評価する。
i)実際の臨床データを用いた統計的共起解析とマスク言語モデリング(MLM)アプローチ,(ii)ドメイン固有のBERT変種,(iii)汎用BERTと文書検索。
- 参考スコア(独自算出の注目度): 0.15558822250482188
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Identifying disease interconnections through manual analysis of large-scale clinical data is labor-intensive, subjective, and prone to expert disagreement. While machine learning (ML) shows promise, three critical challenges remain: (1) selecting optimal methods from the vast ML landscape, (2) determining whether real-world clinical data (e.g., electronic health records, EHRs) or structured disease descriptions yield more reliable insights, (3) the lack of "ground truth," as some disease interconnections remain unexplored in medicine. Large language models (LLMs) demonstrate broad utility, yet they often lack specialized medical knowledge. To address these gaps, we conduct a systematic evaluation of seven approaches for uncovering disease relationships based on two data sources: (i) sequences of ICD-10 codes from MIMIC-IV EHRs and (ii) the full set of ICD-10 codes, both with and without textual descriptions. Our framework integrates the following: (i) a statistical co-occurrence analysis and a masked language modeling (MLM) approach using real clinical data; (ii) domain-specific BERT variants (Med-BERT and BioClinicalBERT); (iii) a general-purpose BERT and document retrieval; and (iv) four LLMs (Mistral, DeepSeek, Qwen, and YandexGPT). Our graph-based comparison of the obtained interconnection matrices shows that the LLM-based approach produces interconnections with the lowest diversity of ICD code connections to different diseases compared to other methods, including text-based and domain-based approaches. This suggests an important implication: LLMs have limited potential for discovering new interconnections. In the absence of ground truth databases for medical interconnections between ICD codes, our results constitute a valuable medical disease ontology that can serve as a foundational resource for future clinical research and artificial intelligence applications in healthcare.
- Abstract(参考訳): 大規模臨床データの手動解析による疾患の相互関係の同定は、労働集約的であり、主観的であり、専門家の意見の不一致を招く。
機械学習(ML)が有望である一方で、(1)広大なMLランドスケープから最適な方法を選択すること、(2)実際の臨床データ(例えば、電子健康記録、EHR)または構造化された疾患記述がより信頼性の高い洞察を与えるかどうかを決定すること、(3)「地上の真実」が欠如していること、などの3つの重要な課題が残っている。
大規模言語モデル(LLM)は幅広い有用性を示すが、専門的な医学的知識は欠如していることが多い。
これらのギャップに対処するため、我々は2つのデータソースに基づいて、病気の関係を明らかにするための7つのアプローチを体系的に評価する。
i)MIMIC-IV EHR および ICD-10 符号のシーケンス
i) ICD-10 コードの全セット。
私たちのフレームワークは以下のものを統合しています。
(i)臨床データを用いた統計的共起分析とマスキング言語モデリング(MLM)アプローチ
(II)ドメイン固有のBERT変種(Med-BERT及びBioClinicalBERT)
三 汎用BERT及び文書検索
四 LLM(Mistral、DeepSeek、Qwen、YandexGPT)
得られた相互接続行列をグラフベースで比較した結果,テキストベースやドメインベースのアプローチを含む他の手法と比較して,LCMベースのアプローチはICDコード接続の多様性の低い相互接続を生成することがわかった。
これは重要な意味を示唆している: LLMは新たな相互接続を発見する可能性に限界がある。
ICD符号間の医用相互接続のための基礎的真理データベースが存在しないため、本研究は医療における将来的な臨床研究や人工知能応用の基盤となる貴重な医学疾患オントロジーを構成することができる。
関連論文リスト
- RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Automated Hierarchical Graph Construction for Multi-source Electronic Health Records [17.122817545326928]
我々は、ニューラルネットワークを用いた機関間で医療コードを整列する完全に自動化されたフレームワークであるMASHを提案する。
MASHは、事前訓練された言語モデル、共起パターン、テキスト記述、教師付きラベルからの情報を統合する。
不均一な臨床データのナビゲーションと理解を容易にする解釈可能な階層グラフを生成する。
論文 参考訳(メタデータ) (2025-09-08T11:45:59Z) - Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - Decoding Rarity: Large Language Models in the Diagnosis of Rare Diseases [1.9662978733004604]
大型言語モデル(LLM)は稀な疾患研究を変革する有望な能力を示している。
本稿では,レアな疾患の解析におけるLSMの統合について検討し,重要な進歩と重要な研究を取り上げる。
論文 参考訳(メタデータ) (2025-05-18T15:42:15Z) - REALM: RAG-Driven Enhancement of Multimodal Electronic Health Records
Analysis via Large Language Models [19.62552013839689]
既存のモデルは、しばしば臨床上の課題に医学的文脈を欠いているため、外部知識の組み入れが促される。
本稿では、マルチモーダルEHR表現を強化するためのRAG(Retrieval-Augmented Generation)駆動フレームワークREALMを提案する。
MIMIC-III 死亡率と可読化タスクに関する実験は,ベースラインよりもREALM フレームワークの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-10T18:27:28Z) - Ontology-Driven and Weakly Supervised Rare Disease Identification from
Clinical Notes [13.096008602034086]
機械学習やドメインの専門家によるデータアノテーションの必要性から、希少な疾患の特定は困難である。
両方向変換器(例えばBERT)からの事前学習した文脈表現を用いた脳と弱い監督手法を提案する。
弱教師付きアプローチは、ドメインの専門家による注釈付きデータなしで、テキスト-UMLSリンクを改善するための確認表現型モデルを学ぶために提案される。
論文 参考訳(メタデータ) (2022-05-11T17:38:24Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。