論文の概要: Beyond Diagnosis: Evaluating Multimodal LLMs for Pathology Localization in Chest Radiographs
- arxiv url: http://arxiv.org/abs/2509.18015v1
- Date: Mon, 22 Sep 2025 16:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.519004
- Title: Beyond Diagnosis: Evaluating Multimodal LLMs for Pathology Localization in Chest Radiographs
- Title(参考訳): 診断を超えて : 胸部X線像における病理組織像のマルチモーダルLCMの評価
- Authors: Advait Gosai, Arun Kavishwar, Stephanie L. McNamara, Soujanya Samineni, Renato Umeton, Alexander Chowdhury, William Lotter,
- Abstract要約: 胸部X線写真における病理像の局所化能力について,2つの汎用大言語モデル (LLM) とドメイン固有モデル (MedGemma) を評価した。
GPT-5は49.7%、GPT-4(39.1%)とMedGemma(17.7%)の順で、いずれもタスク固有のCNNベースライン(59.9%)と放射線学ベンチマーク(80.1%)より低い。
GPT-4は, 解剖学的位置が固定された病理では良好に機能したが, 空間的変化に悩まされ, より頻度の低い予測が得られた。
- 参考スコア(独自算出の注目度): 33.80781505782195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown promising performance of frontier large language models (LLMs) and their multimodal counterparts in medical quizzes and diagnostic tasks, highlighting their potential for broad clinical utility given their accessible, general-purpose nature. However, beyond diagnosis, a fundamental aspect of medical image interpretation is the ability to localize pathological findings. Evaluating localization not only has clinical and educational relevance but also provides insight into a model's spatial understanding of anatomy and disease. Here, we systematically assess two general-purpose MLLMs (GPT-4 and GPT-5) and a domain-specific model (MedGemma) in their ability to localize pathologies on chest radiographs, using a prompting pipeline that overlays a spatial grid and elicits coordinate-based predictions. Averaged across nine pathologies in the CheXlocalize dataset, GPT-5 exhibited a localization accuracy of 49.7%, followed by GPT-4 (39.1%) and MedGemma (17.7%), all lower than a task-specific CNN baseline (59.9%) and a radiologist benchmark (80.1%). Despite modest performance, error analysis revealed that GPT-5's predictions were largely in anatomically plausible regions, just not always precisely localized. GPT-4 performed well on pathologies with fixed anatomical locations, but struggled with spatially variable findings and exhibited anatomically implausible predictions more frequently. MedGemma demonstrated the lowest performance on all pathologies, showing limited capacity to generalize to this novel task. Our findings highlight both the promise and limitations of current MLLMs in medical imaging and underscore the importance of integrating them with task-specific tools for reliable use.
- Abstract(参考訳): 最近の研究は、医療クイズや診断タスクにおける、フロンティア大言語モデル(LLM)とそのマルチモーダルモデルの有望な性能を示しており、それらがアクセス可能で汎用的な性質から、幅広い臨床応用の可能性を強調している。
しかし、診断以外では、画像解釈の基本的な側面は、病理所見の局在化である。
ローカライゼーションを評価することは、臨床と教育の関連性だけでなく、モデルが解剖学と病気を空間的に理解することへの洞察を与える。
そこで我々は,2つの汎用MLLM (GPT-4, GPT-5) とドメイン固有モデル (MedGemma) を,空間格子をオーバーレイして座標に基づく予測を誘発するプロンプトパイプラインを用いて,胸部X線像の局所化能力の評価を行った。
CheXローカライズデータセットの9つの病理から、GPT-5は49.7%、GPT-4(39.1%)とMedGemma(17.7%)の順で、いずれもタスク固有のCNNベースライン(59.9%)とラジオロジスティクスベンチマーク(80.1%)より低い。
わずかな性能にもかかわらず、エラー解析により、GPT-5の予測は解剖学的に妥当な領域であり、必ずしも正確に局所化されていないことがわかった。
GPT-4は, 解剖学的位置が固定された病理では良好に機能したが, 空間的変化に苦慮し, 解剖学的に理解不能な予測が頻発した。
MedGemmaはこの新しいタスクを一般化する能力に制限があることを示している。
本研究は,医療画像における現在のMLLMの持つ可能性と限界を両立させ,信頼性向上のためのタスク固有のツールと統合することの重要性を浮き彫りにした。
関連論文リスト
- Boosting Pathology Foundation Models via Few-shot Prompt-tuning for Rare Cancer Subtyping [80.92960114162746]
視覚言語病理基盤モデルの可能性を生かした新しいフレームワークPathPTを提案する。
PathPTは、WSIレベルの監視を、VLモデルのゼロショット機能を活用することで、きめ細かいタイルレベルのガイダンスに変換する。
以上の結果から,PathPTは一貫して優れた性能を示し,サブタイピング精度と癌領域の接地能力を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-08-21T18:04:41Z) - PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology [33.51485504161335]
病理基盤モデル(PFM)の最初の包括的なベンチマークであるPathBenchを紹介する。
我々のフレームワークは大規模データを組み込んで,PFMの客観的比較を可能にする。
当院では10病院で8,549人の患者から15,888件のWSIを収集し,64件以上の診断・予後調査を行った。
論文 参考訳(メタデータ) (2025-05-26T16:42:22Z) - Anatomy-Guided Radiology Report Generation with Pathology-Aware Regional Prompts [3.1019279528120363]
生成AIを報告する放射線学は、臨床ワークロードを緩和し、医療を合理化するための大きな可能性を秘めている。
既存のシステムは、固定サイズ、パッチレベルの画像特徴、病理情報の組み入れが不十分なため、しばしば不足する。
本稿では,病的・病態的情報を多種多様な尺度で明確に統合するために,病理学的に認識された地域的プロンプトを活用する革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-16T12:36:20Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - How Well Do Multi-modal LLMs Interpret CT Scans? An Auto-Evaluation Framework for Analyses [14.884877292068351]
本研究ではGPTRadScore'という新しい評価フレームワークを紹介する。
GPT-4 with Vision (GPT-4V)、Gemini Pro Vision、LLaVA-Med、RadFMといったマルチモーダルLCMの、将来的な発見のための記述を生成する能力を評価する。
GPT-4に基づく分解手法を用いて、GPTRadScoreは生成した記述をゴールドスタンダードのレポート文と比較し、その精度を身体部分、位置、発見の種類で分析する。
論文 参考訳(メタデータ) (2024-03-08T21:16:28Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。