論文の概要: MIMIC-RD: Can LLMs differentially diagnose rare diseases in real-world clinical settings?
- arxiv url: http://arxiv.org/abs/2601.11559v1
- Date: Thu, 18 Dec 2025 05:03:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.756316
- Title: MIMIC-RD: Can LLMs differentially diagnose rare diseases in real-world clinical settings?
- Title(参考訳): MIMIC-RD: LLMはリアルな臨床現場で希少疾患を鑑別できるか?
- Authors: Zilal Eiz AlDin, John Wu, Jeffrey Paul Fung, Jennifer King, Mya Watts, Lauren ONeill, Adam Richard Cross, Jimeng Sun,
- Abstract要約: MIMIC-RDは、臨床テキストエンティティを直接Orphanetにマッピングすることで構築された稀な疾患の鑑定ベンチマークである。
当科における145症例の各種モデルについて検討し,現在最先端のLCMは稀な疾患の鑑別診断に不適当であることを確認した。
- 参考スコア(独自算出の注目度): 11.16221457206157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rare diseases affecting 1 in 10 Americans, their differential diagnosis remains challenging. Due to their impressive recall abilities, large language models (LLMs) have been recently explored for differential diagnosis. Existing approaches to evaluating LLM-based rare disease diagnosis suffer from two critical limitations: they rely on idealized clinical case studies that fail to capture real-world clinical complexity, or they use ICD codes as disease labels, which significantly undercounts rare diseases since many lack direct mappings to comprehensive rare disease databases like Orphanet. To address these limitations, we explore MIMIC-RD, a rare disease differential diagnosis benchmark constructed by directly mapping clinical text entities to Orphanet. Our methodology involved an initial LLM-based mining process followed by validation from four medical annotators to confirm identified entities were genuine rare diseases. We evaluated various models on our dataset of 145 patients and found that current state-of-the-art LLMs perform poorly on rare disease differential diagnosis, highlighting the substantial gap between existing capabilities and clinical needs. From our findings, we outline several future steps towards improving differential diagnosis of rare diseases.
- Abstract(参考訳): アメリカ人10人に1人が発症する稀な疾患にもかかわらず、その鑑別診断は依然として困難である。
大規模な言語モデル (LLMs) は, 高いリコール能力を持つため, ディファレンシャル・ディファレンシャル・診断のために最近研究されている。
LLMをベースとしたレアな疾患診断を評価する既存のアプローチは、現実の臨床的複雑さを捉えない理想的な臨床ケーススタディに頼っているか、またはICDコードを疾患ラベルとして使用しているかの2つの重要な制限がある。
これらの制約に対処するために,臨床テキストエンティティを直接Orphanetにマッピングすることで構築された稀な疾患鑑定ベンチマークであるMIMIC-RDを探索する。
LLMをベースとした採鉱プロセスと4つの医用アノテータの検証を併用し,真に稀な疾患であることが確認された。
われわれは145名の患者を対象とした各種モデルの評価を行い,現在最先端のLCMは稀な疾患の鑑別診断に乏しく,既存能力と臨床ニーズとの差が顕著であった。
本研究は,稀な疾患の鑑別診断を改善するためのいくつかの今後のステップについて概説する。
関連論文リスト
- Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - Improving Interactive Diagnostic Ability of a Large Language Model Agent Through Clinical Experience Learning [17.647875658030006]
本研究では,性能劣化現象の根底にあるメカニズムについて検討する。
我々は,中国とアメリカの医療施設から350万件以上の電子医療記録を活用する,PPME ( Plug-and-play) LLM エージェントを開発した。
本研究は, 初期疾患の診断・調査のための専門モデルを統合し, 指導的, 強化的学習技術を用いて訓練した。
論文 参考訳(メタデータ) (2025-02-24T06:24:20Z) - RareAgents: Autonomous Multi-disciplinary Team for Rare Disease Diagnosis and Treatment [17.58261171394619]
希少な病気が世界中で約3億人に影響を与えている。
近年,大規模言語モデル (LLM) を利用したエージェントが,様々な領域にまたがる顕著な応用を実証している。
RareAgentsは、Llama-3.1-8B/70Bをベースモデルとして、MDT(Advanced Multidisciplinary Team)のコーディネーション、メモリメカニズム、医療ツールの利用を統合する。
論文 参考訳(メタデータ) (2024-12-17T02:22:24Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - RareBench: Can LLMs Serve as Rare Diseases Specialists? [11.828142771893443]
Generalist Large Language Models (LLMs) は、医学的診断を含む様々な領域において有望であることを示している。
世界中で約3億人に影響を及ぼす希少な疾患は、しばしば不満足な臨床診断率を持つ。
RareBenchは、希少疾患の領域における4つの重要な次元におけるLSMの能力を評価するために設計された先駆的なベンチマークである。
GPT-4の診断能力と専門医との総合的な比較検討を行った。
論文 参考訳(メタデータ) (2024-02-09T11:34:16Z) - Expert Uncertainty and Severity Aware Chest X-Ray Classification by
Multi-Relationship Graph Learning [48.29204631769816]
我々はCXRレポートから病気ラベルを再抽出し,重症度と分類の不確実性を考慮し,より現実的になるようにした。
以上の結果から, 疾患の重症度と不確実性を考慮したモデルが, 従来の最先端手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-09-06T19:19:41Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。