論文の概要: Are Multimodal LLMs Ready for Clinical Dermatology? A Real-World Evaluation in Dermatology
- arxiv url: http://arxiv.org/abs/2605.04098v1
- Date: Fri, 01 May 2026 02:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.431767
- Title: Are Multimodal LLMs Ready for Clinical Dermatology? A Real-World Evaluation in Dermatology
- Title(参考訳): 臨床皮膚科領域におけるマルチモーダルLCMの適応 : 皮膚科領域における実世界評価
- Authors: Roy Jiang, Hyunjae Kim, Zhenyue Qin, Morten Lee, Margaret MacGibeny, Ailish Hanly, Angela Sadlowski, Shanin Chowdhury, Xuguang Ai, Jeffrey Gehlhausen, Qingyu Chen,
- Abstract要約: MLLM(Multimodal large language model)は、一般に利用可能な皮膚科のベンチマークで約束されている。
オープンウェイトMLLM (InternVL-Chat v1.5, LLaVA-Med v1.5, SkinGPT4, MedGemma-4B-Instruct) と市販MLLM (GPT-4.1) を3つの皮膚科学データセットで比較検討した。
診断性能は公開データセットでは軽度であり、現実世界のコホートでは大幅に低下した。
- 参考スコア(独自算出の注目度): 6.096816682256677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have demonstrated promise on publicly available dermatology benchmarks. However, benchmark performance may not generalize to real-world dermatologic decision-making. To quantify this benchmark-to-bedside gap, we evaluated four open-weight MLLMs (InternVL-Chat v1.5, LLaVA-Med v1.5, SkinGPT4 and MedGemma-4B-Instruct) and one commercial MLLM (GPT-4.1) across three publicly available dermatology datasets and a retrospective multi-site hospital-based dermatology consultation cohort comprising 5,811 cases and 46,405 clinical images. Models were evaluated on two clinically relevant tasks: differential diagnosis generation and severity-based triage. Diagnostic performance was modest on public datasets and declined substantially in the real-world cohort. On public benchmarks, top-3 diagnostic accuracy reached 26.55% for the best open-weight model and 42.25% for GPT-4.1. On real-world consultation cases using images alone, top-3 diagnostic accuracy fell to 1.50%-13.35% among open-weight models and 24.65% for GPT-4.1. Incorporating clinical context improved performance across all models, increasing top-3 diagnostic accuracy up to 28.75% among open-weight models and 38.93% for GPT-4.1. However, model outputs were highly sensitive to incomplete or erroneous consultation context. For severity-based triage, models achieved moderate sensitivity (above 60%), suggesting potential utility for screening but insufficient reliability for clinical deployment. These findings demonstrate that benchmark performance substantially overestimates the real-world clinical capability of current dermatology MLLMs.
- Abstract(参考訳): MLLM(Multimodal large language model)は、一般に利用可能な皮膚科のベンチマークで約束されている。
しかし、ベンチマーク性能は現実世界の皮膚学的な意思決定に一般化できない。
このベンチマーク・ツー・ベッドサイドのギャップを定量化するため,5,811例,46,405例の臨床画像から,オープンウェイトMLLM (InternVL-Chat v1.5, LLaVA-Med v1.5, SkinGPT4, MedGemma-4B-Instruct) と1例の市販MLLM (GPT-4.1) の3つの皮膚科データセット,およびレトロスペクティブ型多施設型病院皮膚科コンサルテーションコホートを比較検討した。
鑑別診断と重症度に基づくトリアージの2つの臨床的課題について検討した。
診断性能は公開データセットでは軽度であり、現実世界のコホートでは大幅に低下した。
公開ベンチマークでは、トップ3の診断精度は、最高のオープンウェイトモデルでは26.55%、GPT-4.1では42.25%に達した。
画像のみを使用した実世界のコンサルテーションの場合、診断精度はオープンウェイトモデルで1.50%-13.35%、GPT-4.1では24.65%に低下した。
臨床コンテキストを組み込むことで全てのモデルのパフォーマンスが向上し、オープンウェイトモデルの診断精度は28.75%、GPT-4.1では38.93%向上した。
しかし、モデル出力は不完全または誤ったコンサルテーションコンテキストに対して非常に敏感であった。
重症度に基づくトリアージでは、モデルが適度な感度(60%以上)を達成した。
これらの結果は,現在の皮膚科MLLMの実際の臨床能力について,ベンチマーク性能が著しく過大評価されていることを示唆している。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs [54.8829900010621]
MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。
これらのギャップに対処するための包括的なフレームワークを提示します。
まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。
第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
論文 参考訳(メタデータ) (2026-01-05T07:55:36Z) - Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models [57.73472878679636]
Med-RewardBenchは、医療報酬モデルと審査員を評価するために特別に設計された最初のベンチマークである。
Med-RewardBenchは、13の臓器系と8の臨床部門にまたがるマルチモーダルデータセットを特徴としている。
厳格な3段階のプロセスは、6つの臨床的に重要な次元にわたる高品質な評価データを保証する。
論文 参考訳(メタデータ) (2025-08-29T08:58:39Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - A Modular Approach for Clinical SLMs Driven by Synthetic Data with Pre-Instruction Tuning, Model Merging, and Clinical-Tasks Alignment [46.776978552161395]
小型言語モデル(SLM)は、GPT-4のような大規模言語モデルに代わる費用対効果を提供する。
SLMは費用対効果のある代替手段を提供するが、その限られた能力は生物医学的な領域適応を必要とする。
本研究では,SLMを高性能な臨床モデルに適用するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T21:40:21Z) - LEME: Open Large Language Models for Ophthalmology with Advanced Reasoning and Clinical Validation [29.913581347375256]
大規模言語モデル(LLM)は、ドキュメントの作業量を削減し、臨床的な意思決定をサポートする、有望なパスを提供する。
本稿では,2段階プロセスで開発したオープンウェイトLLMのスイートであるLEMEについて述べる。
LEMEは、患者QA、相談、治療計画などのタスクにまたがる5つのゼロショットベンチマークで評価された。
論文 参考訳(メタデータ) (2024-10-01T02:43:54Z) - The Case Records of ChatGPT: Language Models and Complex Clinical
Questions [0.35157846138914034]
臨床診断における大規模言語AIモデル GPT4 と GPT3.5 の精度について検討した。
GPT4, GPT3.5は1回の試行で26%, 22%, 3回の検行で46%, 42%の精度で正しい診断を行った。
論文 参考訳(メタデータ) (2023-05-09T16:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。