論文の概要: Beyond Diagnosis: Evaluating Multimodal LLMs for Pathology Localization in Chest Radiographs
- arxiv url: http://arxiv.org/abs/2509.18015v1
- Date: Mon, 22 Sep 2025 16:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.519004
- Title: Beyond Diagnosis: Evaluating Multimodal LLMs for Pathology Localization in Chest Radiographs
- Title(参考訳): 診断を超えて : 胸部X線像における病理組織像のマルチモーダルLCMの評価
- Authors: Advait Gosai, Arun Kavishwar, Stephanie L. McNamara, Soujanya Samineni, Renato Umeton, Alexander Chowdhury, William Lotter,
- Abstract要約: 胸部X線写真における病理像の局所化能力について,2つの汎用大言語モデル (LLM) とドメイン固有モデル (MedGemma) を評価した。
GPT-5は49.7%、GPT-4(39.1%)とMedGemma(17.7%)の順で、いずれもタスク固有のCNNベースライン(59.9%)と放射線学ベンチマーク(80.1%)より低い。
GPT-4は, 解剖学的位置が固定された病理では良好に機能したが, 空間的変化に悩まされ, より頻度の低い予測が得られた。
- 参考スコア(独自算出の注目度): 33.80781505782195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown promising performance of frontier large language models (LLMs) and their multimodal counterparts in medical quizzes and diagnostic tasks, highlighting their potential for broad clinical utility given their accessible, general-purpose nature. However, beyond diagnosis, a fundamental aspect of medical image interpretation is the ability to localize pathological findings. Evaluating localization not only has clinical and educational relevance but also provides insight into a model's spatial understanding of anatomy and disease. Here, we systematically assess two general-purpose MLLMs (GPT-4 and GPT-5) and a domain-specific model (MedGemma) in their ability to localize pathologies on chest radiographs, using a prompting pipeline that overlays a spatial grid and elicits coordinate-based predictions. Averaged across nine pathologies in the CheXlocalize dataset, GPT-5 exhibited a localization accuracy of 49.7%, followed by GPT-4 (39.1%) and MedGemma (17.7%), all lower than a task-specific CNN baseline (59.9%) and a radiologist benchmark (80.1%). Despite modest performance, error analysis revealed that GPT-5's predictions were largely in anatomically plausible regions, just not always precisely localized. GPT-4 performed well on pathologies with fixed anatomical locations, but struggled with spatially variable findings and exhibited anatomically implausible predictions more frequently. MedGemma demonstrated the lowest performance on all pathologies, showing limited capacity to generalize to this novel task. Our findings highlight both the promise and limitations of current MLLMs in medical imaging and underscore the importance of integrating them with task-specific tools for reliable use.
- Abstract(参考訳): 最近の研究は、医療クイズや診断タスクにおける、フロンティア大言語モデル(LLM)とそのマルチモーダルモデルの有望な性能を示しており、それらがアクセス可能で汎用的な性質から、幅広い臨床応用の可能性を強調している。
しかし、診断以外では、画像解釈の基本的な側面は、病理所見の局在化である。
ローカライゼーションを評価することは、臨床と教育の関連性だけでなく、モデルが解剖学と病気を空間的に理解することへの洞察を与える。
そこで我々は,2つの汎用MLLM (GPT-4, GPT-5) とドメイン固有モデル (MedGemma) を,空間格子をオーバーレイして座標に基づく予測を誘発するプロンプトパイプラインを用いて,胸部X線像の局所化能力の評価を行った。
CheXローカライズデータセットの9つの病理から、GPT-5は49.7%、GPT-4(39.1%)とMedGemma(17.7%)の順で、いずれもタスク固有のCNNベースライン(59.9%)とラジオロジスティクスベンチマーク(80.1%)より低い。
わずかな性能にもかかわらず、エラー解析により、GPT-5の予測は解剖学的に妥当な領域であり、必ずしも正確に局所化されていないことがわかった。
GPT-4は, 解剖学的位置が固定された病理では良好に機能したが, 空間的変化に苦慮し, 解剖学的に理解不能な予測が頻発した。
MedGemmaはこの新しいタスクを一般化する能力に制限があることを示している。
本研究は,医療画像における現在のMLLMの持つ可能性と限界を両立させ,信頼性向上のためのタスク固有のツールと統合することの重要性を浮き彫りにした。
関連論文リスト
- Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary [36.736436091313585]
この注釈書は、GPT-5ファミリー(GPT-5, GPT-5 Mini, GPT-5 Nano)の最初の制御された横断的な評価である。
GPT-5は、MedXpertQAの25ポイントを超える絶対的な改善により、専門家レベルのテキスト推論において著しく向上した。
マルチモーダル合成を課題とする場合、GPT-5はこの強化された推論能力を有効活用し、具体的な画像証拠に不確実な臨床物語を根拠とした。
論文 参考訳(メタデータ) (2026-03-05T03:24:48Z) - DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs [54.8829900010621]
MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。
これらのギャップに対処するための包括的なフレームワークを提示します。
まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。
第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
論文 参考訳(メタデータ) (2026-01-05T07:55:36Z) - MedGemma vs GPT-4: Open-Source and Proprietary Zero-shot Medical Disease Classification from Images [0.0]
本研究では、オープンソースエージェントMedGemmaとプロプライエタリな大規模マルチモーダルモデルGPT-4の2つの基本的異なるAIアーキテクチャの比較を示す。
Low-Rank Adaptation (LoRA) を用いて微調整したMedGemma-4b-itモデルでは, 平均試験精度80.37%を達成し, 優れた診断能力を示した。
これらの結果は, 臨床実践における幻覚の最小化にドメイン特異的微調整が不可欠であることを強調し, MedGemmaを複雑でエビデンスに基づく医学的推論のための高度なツールとして位置づけた。
論文 参考訳(メタデータ) (2025-12-29T08:48:36Z) - A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - XBench: A Comprehensive Benchmark for Visual-Language Explanations in Chest Radiography [6.447908430647854]
胸部X線におけるクロスモーダル解釈性を評価するための最初の体系的ベンチマークを示す。
我々は,クロスアテンションと類似性に基づくローカライズマップを用いた視覚的説明を生成する。
複数の病理組織を横断する放射線診断領域とのアライメントを定量的に評価した。
論文 参考訳(メタデータ) (2025-10-22T13:52:19Z) - Boosting Pathology Foundation Models via Few-shot Prompt-tuning for Rare Cancer Subtyping [80.92960114162746]
視覚言語病理基盤モデルの可能性を生かした新しいフレームワークPathPTを提案する。
PathPTは、WSIレベルの監視を、VLモデルのゼロショット機能を活用することで、きめ細かいタイルレベルのガイダンスに変換する。
以上の結果から,PathPTは一貫して優れた性能を示し,サブタイピング精度と癌領域の接地能力を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-08-21T18:04:41Z) - PathBench: A comprehensive comparison benchmark for pathology foundation models towards precision oncology [33.51485504161335]
病理基盤モデル(PFM)の最初の包括的なベンチマークであるPathBenchを紹介する。
我々のフレームワークは大規模データを組み込んで,PFMの客観的比較を可能にする。
当院では10病院で8,549人の患者から15,888件のWSIを収集し,64件以上の診断・予後調査を行った。
論文 参考訳(メタデータ) (2025-05-26T16:42:22Z) - Anatomy-Guided Radiology Report Generation with Pathology-Aware Regional Prompts [3.1019279528120363]
生成AIを報告する放射線学は、臨床ワークロードを緩和し、医療を合理化するための大きな可能性を秘めている。
既存のシステムは、固定サイズ、パッチレベルの画像特徴、病理情報の組み入れが不十分なため、しばしば不足する。
本稿では,病的・病態的情報を多種多様な尺度で明確に統合するために,病理学的に認識された地域的プロンプトを活用する革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-16T12:36:20Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - How Well Do Multi-modal LLMs Interpret CT Scans? An Auto-Evaluation Framework for Analyses [14.884877292068351]
本研究ではGPTRadScore'という新しい評価フレームワークを紹介する。
GPT-4 with Vision (GPT-4V)、Gemini Pro Vision、LLaVA-Med、RadFMといったマルチモーダルLCMの、将来的な発見のための記述を生成する能力を評価する。
GPT-4に基づく分解手法を用いて、GPTRadScoreは生成した記述をゴールドスタンダードのレポート文と比較し、その精度を身体部分、位置、発見の種類で分析する。
論文 参考訳(メタデータ) (2024-03-08T21:16:28Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。