論文の概要: MM-Skin: Enhancing Dermatology Vision-Language Model with an Image-Text Dataset Derived from Textbooks
- arxiv url: http://arxiv.org/abs/2505.06152v1
- Date: Fri, 09 May 2025 16:03:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.3281
- Title: MM-Skin: Enhancing Dermatology Vision-Language Model with an Image-Text Dataset Derived from Textbooks
- Title(参考訳): MM-Skin:テキストから派生した画像テキストデータセットを用いた皮膚科視覚言語モデルの構築
- Authors: Wenqi Zeng, Yuqi Sun, Chenxi Ma, Weimin Tan, Bo Yan,
- Abstract要約: 医療ビジョン言語モデル(VLM)は、様々な医療分野における臨床助手として期待されている。
SkinVLは皮膚疾患の正確な解釈のために設計された皮膚科固有のVLMである。
MM-Skinは、最初の大規模マルチモーダル皮膚科学データセットである。
- 参考スコア(独自算出の注目度): 15.746023359967005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical vision-language models (VLMs) have shown promise as clinical assistants across various medical fields. However, specialized dermatology VLM capable of delivering professional and detailed diagnostic analysis remains underdeveloped, primarily due to less specialized text descriptions in current dermatology multimodal datasets. To address this issue, we propose MM-Skin, the first large-scale multimodal dermatology dataset that encompasses 3 imaging modalities, including clinical, dermoscopic, and pathological and nearly 10k high-quality image-text pairs collected from professional textbooks. In addition, we generate over 27k diverse, instruction-following vision question answering (VQA) samples (9 times the size of current largest dermatology VQA dataset). Leveraging public datasets and MM-Skin, we developed SkinVL, a dermatology-specific VLM designed for precise and nuanced skin disease interpretation. Comprehensive benchmark evaluations of SkinVL on VQA, supervised fine-tuning (SFT) and zero-shot classification tasks across 8 datasets, reveal its exceptional performance for skin diseases in comparison to both general and medical VLM models. The introduction of MM-Skin and SkinVL offers a meaningful contribution to advancing the development of clinical dermatology VLM assistants. MM-Skin is available at https://github.com/ZwQ803/MM-Skin
- Abstract(参考訳): 医療ビジョン言語モデル(VLM)は、様々な医療分野における臨床助手として期待されている。
しかしながら、専門的かつ詳細な診断分析を提供することのできる専門的皮膚学 VLM は、主に現在の皮膚学のマルチモーダルデータセットにおける、あまり専門的でないテキスト記述のため、未開発のままである。
そこで本研究では, 臨床, 皮膚内視鏡, 病理学を含む3つの画像モダリティを包含し, プロの教科書から収集した10k近い高品質な画像テキストペアであるMM-Skinを提案する。
さらに,現在最大の皮膚科用VQAデータセットの9倍の大きさのVQAサンプルを27万種類以上生成した。
SkinVLは皮膚疾患の正確な解釈を目的とした皮膚科用VLMである。
VQA上でのSkinVLの総合的なベンチマーク評価、教師付き微調整(SFT)およびゼロショット分類タスクは、8つのデータセットにわたって行われ、一般的なVLMモデルと医療VLMモデルの両方と比較して皮膚疾患の例外的なパフォーマンスを示す。
MM-SkinとSkinVLの導入は、臨床皮膚科学VLMアシスタントの開発に有意義な貢献をしている。
MM-Skinはhttps://github.com/ZwQ803/MM-Skinで利用可能である。
関連論文リスト
- Derm1M: A Million-scale Vision-Language Dataset Aligned with Clinical Ontology Knowledge for Dermatology [20.650401805716744]
本稿では,1029,761個の画像テキストペアからなる皮膚科における最初の大規模視覚言語データセットであるDerm1Mを提案する。
AI研究と臨床応用の進展におけるDerm1Mの可能性を示すために、我々はこのデータセット上で一連のCLIPライクなモデル(DermLIP)を事前訓練した。
論文 参考訳(メタデータ) (2025-03-19T05:30:01Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - SkinCAP: A Multi-modal Dermatology Dataset Annotated with Rich Medical Captions [17.803181915074706]
SkinCAPは、Fitzpatrick 17k皮膚疾患データセットとDiverse Dermatology Imagesデータセットからソースされた4,000の画像で構成されている。
特に、SkinCAPは世界初のそのようなデータセットであり、https://huggingface.co/datasets/joshuachou/SkinCAPで公開されている。
論文 参考訳(メタデータ) (2024-05-28T09:48:23Z) - SkinGEN: an Explainable Dermatology Diagnosis-to-Generation Framework with Interactive Vision-Language Models [54.32264601568605]
SkinGENは、VLMが提供する診断結果から参照デモを生成する、診断から生成までのフレームワークである。
システム性能と説明可能性の両方を評価するために,32人の参加者によるユーザスタディを実施している。
その結果、SkinGENはVLM予測に対するユーザの理解を著しく改善し、診断プロセスへの信頼を高めることが示されている。
論文 参考訳(メタデータ) (2024-04-23T05:36:33Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。