論文の概要: VL-MedGuide: A Visual-Linguistic Large Model for Intelligent and Explainable Skin Disease Auxiliary Diagnosis
- arxiv url: http://arxiv.org/abs/2508.06624v1
- Date: Fri, 08 Aug 2025 18:13:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.477191
- Title: VL-MedGuide: A Visual-Linguistic Large Model for Intelligent and Explainable Skin Disease Auxiliary Diagnosis
- Title(参考訳): VL-MedGuide : 知的・説明可能な皮膚疾患補助診断のための視覚言語大モデル
- Authors: Kexin Yu, Zihan Xu, Jialei Xie, Carter Adams,
- Abstract要約: 本稿では,視覚言語大モデル(LVLM)の強力なマルチモーダル理解と推論機能を活用した新しいフレームワークであるVL-MedGuideを紹介する。
Derm7ptデータセットの実験は、VL-MedGuideが疾患診断と概念検出の両方で最先端のパフォーマンスを達成することを示した。
人間の評価は、生成された説明の明快さ、完全性、信頼性を裏付けるものである。
- 参考スコア(独自算出の注目度): 3.7978950713339215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate diagnosis of skin diseases remains a significant challenge due to the complex and diverse visual features present in dermatoscopic images, often compounded by a lack of interpretability in existing purely visual diagnostic models. To address these limitations, this study introduces VL-MedGuide (Visual-Linguistic Medical Guide), a novel framework leveraging the powerful multi-modal understanding and reasoning capabilities of Visual-Language Large Models (LVLMs) for intelligent and inherently interpretable auxiliary diagnosis of skin conditions. VL-MedGuide operates in two interconnected stages: a Multi-modal Concept Perception Module, which identifies and linguistically describes dermatologically relevant visual features through sophisticated prompt engineering, and an Explainable Disease Reasoning Module, which integrates these concepts with raw visual information via Chain-of-Thought prompting to provide precise disease diagnoses alongside transparent rationales. Comprehensive experiments on the Derm7pt dataset demonstrate that VL-MedGuide achieves state-of-the-art performance in both disease diagnosis (83.55% BACC, 80.12% F1) and concept detection (76.10% BACC, 67.45% F1), surpassing existing baselines. Furthermore, human evaluations confirm the high clarity, completeness, and trustworthiness of its generated explanations, bridging the gap between AI performance and clinical utility by offering actionable, explainable insights for dermatological practice.
- Abstract(参考訳): 皮膚疾患の正確な診断は、皮膚内視鏡画像に存在する複雑で多様な視覚的特徴が、しばしば既存の純粋な視覚的診断モデルにおける解釈可能性の欠如によって複合化されているため、依然として重要な課題である。
これらの制約に対処するために,視覚言語大モデル(LVLM)の強力なマルチモーダル理解と推論機能を活用した,知的かつ本質的に解釈可能な皮膚疾患の補助診断のための新しいフレームワークであるVL-MedGuide(Visual-Linguistic Medical Guide)を紹介した。
VL-MedGuideは2つの相互接続された段階で動作している: マルチモーダル・コンセプト・パーセプション・モジュール(Multi-modal Concept Perception Module)。
Derm7ptデータセットに関する総合的な実験により、VL-MedGuideは疾患診断(83.55% BACC, 80.12% F1)と概念検出(76.10% BACC, 67.45% F1)の両方で最先端のパフォーマンスを達成し、既存のベースラインを超えることが示されている。
さらに、人間の評価は、その生成した説明の明瞭さ、完全性、信頼性を確認し、皮膚科の実践に対して実用的な説明可能な洞察を提供することで、AIパフォーマンスと臨床ユーティリティのギャップを埋める。
関連論文リスト
- Test-Time-Scaling for Zero-Shot Diagnosis with Visual-Language Reasoning [37.37330596550283]
視覚言語モデルを用いた信頼性のある医用画像診断のためのフレームワークを提案する。
テストタイムスケーリング戦略は、複数の候補出力を信頼性のある最終診断に集約する。
様々な医用画像モダリティにまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-06-11T22:23:38Z) - MedGrad E-CLIP: Enhancing Trust and Transparency in AI-Driven Skin Lesion Diagnosis [2.9540164442363976]
この研究は、異なる皮膚病変データセットに基づいて訓練されたCLIP(Contrastive Language- Image Pretraining)モデルを用いて、視覚的特徴と診断基準項の間の有意義な関係を捉える。
皮膚病変などの複雑な医用画像に重み付けされたエントロピー機構を組み込むことにより,勾配に基づくE-CLIP上に構築するMedGrad E-CLIP法を提案する。
画像の異なる特徴が診断基準とどのように関連しているかを視覚的に説明することにより、医用画像解析における高度な視覚言語モデルの可能性を示す。
論文 参考訳(メタデータ) (2025-01-12T17:50:47Z) - Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback [57.98393950821579]
医学的異常を明らかにするための新しいUMed-LVLMを提案する。
本稿では,GPT-4Vを用いた診断手法を提案する。
UMed-LVLMは既存のMed-LVLMよりも医療異常の同定と理解に優れていた。
論文 参考訳(メタデータ) (2025-01-02T17:37:20Z) - SkinGEN: an Explainable Dermatology Diagnosis-to-Generation Framework with Interactive Vision-Language Models [54.32264601568605]
SkinGENは、VLMが提供する診断結果から参照デモを生成する、診断から生成までのフレームワークである。
システム性能と説明可能性の両方を評価するために,32人の参加者によるユーザスタディを実施している。
その結果、SkinGENはVLM予測に対するユーザの理解を著しく改善し、診断プロセスへの信頼を高めることが示されている。
論文 参考訳(メタデータ) (2024-04-23T05:36:33Z) - Optimizing Skin Lesion Classification via Multimodal Data and Auxiliary
Task Integration [54.76511683427566]
本研究は, スマートフォンで撮影した画像と本質的な臨床および人口統計情報を統合することで, 皮膚病変を分類する新しいマルチモーダル手法を提案する。
この手法の特徴は、超高解像度画像予測に焦点を当てた補助的なタスクの統合である。
PAD-UFES20データセットを用いて,様々なディープラーニングアーキテクチャを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-16T05:16:20Z) - MICA: Towards Explainable Skin Lesion Diagnosis via Multi-Level
Image-Concept Alignment [4.861768967055006]
本稿では, 医療画像と臨床関連概念を多層的に意味的に整合させるマルチモーダル説明型疾患診断フレームワークを提案する。
提案手法は, モデル解釈可能性を維持しながら, 概念検出と疾患診断に高い性能とラベル効率を実現する。
論文 参考訳(メタデータ) (2024-01-16T17:45:01Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。