論文の概要: Evaluating Large Language Models on Rare Disease Diagnosis: A Case Study using House M.D
- arxiv url: http://arxiv.org/abs/2511.10912v1
- Date: Fri, 14 Nov 2025 02:54:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.403523
- Title: Evaluating Large Language Models on Rare Disease Diagnosis: A Case Study using House M.D
- Title(参考訳): 希少疾患診断における大規模言語モデルの評価 : ハウスM.Dを用いた事例研究
- Authors: Arsh Gupta, Ajay Narayanan Sridhar, Bonam Mingole, Amulya Yadav,
- Abstract要約: ハウスM.D.から抽出した176の症状-診断ペアの新しいデータセットについて紹介する。
本研究では,4つの言語モデル(LLM)を,物語に基づく診断推論タスクで評価する。
結果は16.48%から38.64%の精度で大幅な性能変化を示し、新しいモデル世代は2.3倍の改善を示した。
- 参考スコア(独自算出の注目度): 6.480805458549629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated capabilities across diverse domains, yet their performance on rare disease diagnosis from narrative medical cases remains underexplored. We introduce a novel dataset of 176 symptom-diagnosis pairs extracted from House M.D., a medical television series validated for teaching rare disease recognition in medical education. We evaluate four state-of-the-art LLMs such as GPT 4o mini, GPT 5 mini, Gemini 2.5 Flash, and Gemini 2.5 Pro on narrative-based diagnostic reasoning tasks. Results show significant variation in performance, ranging from 16.48% to 38.64% accuracy, with newer model generations demonstrating a 2.3 times improvement. While all models face substantial challenges with rare disease diagnosis, the observed improvement across architectures suggests promising directions for future development. Our educationally validated benchmark establishes baseline performance metrics for narrative medical reasoning and provides a publicly accessible evaluation framework for advancing AI-assisted diagnosis research.
- Abstract(参考訳): 大規模言語モデル (LLM) は多様な領域にまたがる能力を示したが, 物語医学的症例からの稀な疾患診断における性能は未解明のままである。
本報告では,医学教育における稀な疾患認識の指導に有効な医療テレビシリーズであるHouse M.D.から抽出した176種類の症状-診断ペアのデータセットについて紹介する。
GPT 4o mini, GPT 5 mini, Gemini 2.5 Flash, Gemini 2.5 Pro の4つの最新のLCMを物語ベースの診断推論タスクで評価した。
結果は16.48%から38.64%の精度で大幅な性能変化を示し、新しいモデル世代は2.3倍の改善を示した。
全てのモデルは稀な疾患の診断において重大な課題に直面しているが、アーキテクチャー間で観察された改善は将来の発展に向けて有望な方向を示唆している。
教育的に検証されたベンチマークは、物語的医学的推論のためのベースラインのパフォーマンス指標を確立し、AI支援診断研究を進めるための公開可能な評価フレームワークを提供する。
関連論文リスト
- Boosting Pathology Foundation Models via Few-shot Prompt-tuning for Rare Cancer Subtyping [80.92960114162746]
視覚言語病理基盤モデルの可能性を生かした新しいフレームワークPathPTを提案する。
PathPTは、WSIレベルの監視を、VLモデルのゼロショット機能を活用することで、きめ細かいタイルレベルのガイダンスに変換する。
以上の結果から,PathPTは一貫して優れた性能を示し,サブタイピング精度と癌領域の接地能力を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-08-21T18:04:41Z) - MedRAG: Enhancing Retrieval-augmented Generation with Knowledge Graph-Elicited Reasoning for Healthcare Copilot [47.77948063906033]
Retrieval-augmented Generation (RAG)は、プライバシーに敏感な電子健康記録を検索するのに適した手法である。
本稿では,医療領域に対する知識グラフ(KG)により強化されたRAGモデルであるMedRAGを提案する。
MedRAGはより具体的な診断の洞察を提供し、誤診率の低減に最先端のモデルを上回っている。
論文 参考訳(メタデータ) (2025-02-06T12:27:35Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis [28.421857904824627]
MiniGPT-Medは、大規模言語モデルから派生したヴィジュアル言語モデルであり、医学的応用に適したものである。
医療報告生成、視覚的質問応答(VQA)、医療画像内の疾患識別などのタスクを実行することができる。
医療報告生成の最先端性能は,従来の最良モデルよりも19%高い精度で達成される。
論文 参考訳(メタデータ) (2024-07-04T18:21:10Z) - Digital Diagnostics: The Potential Of Large Language Models In Recognizing Symptoms Of Common Illnesses [0.2995925627097048]
本研究は,患者症状を解釈し,一般的な疾患に適合する診断を判定することにより,各モデルの診断能力を評価する。
GPT-4は、医療データに基づくトレーニングの深部および完全な履歴から高い診断精度を示す。
Geminiは、病気のトリアージにおいて重要なツールとして高い精度で実行し、信頼性のあるモデルになる可能性を示している。
論文 参考訳(メタデータ) (2024-05-09T15:12:24Z) - CephGPT-4: An Interactive Multimodal Cephalometric Measurement and
Diagnostic System with Visual Large Language Model [4.64641334287597]
CephGPT-4モデルは優れた性能を示し、矯正的測定と診断の応用に革命をもたらす可能性がある。
これらの革新は矯正学の分野で革命的応用の可能性を持っている。
論文 参考訳(メタデータ) (2023-07-01T15:41:12Z) - The Case Records of ChatGPT: Language Models and Complex Clinical
Questions [0.35157846138914034]
臨床診断における大規模言語AIモデル GPT4 と GPT3.5 の精度について検討した。
GPT4, GPT3.5は1回の試行で26%, 22%, 3回の検行で46%, 42%の精度で正しい診断を行った。
論文 参考訳(メタデータ) (2023-05-09T16:58:32Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。