論文の概要: SkinCaRe: A Multimodal Dermatology Dataset Annotated with Medical Caption and Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2405.18004v2
- Date: Sun, 09 Nov 2025 07:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.244235
- Title: SkinCaRe: A Multimodal Dermatology Dataset Annotated with Medical Caption and Chain-of-Thought Reasoning
- Title(参考訳): SkinCaRe:医療用カプセルとチェーン・オブ・ソート推論を付加したマルチモーダル皮膚科学データセット
- Authors: Yuhao Shen, Liyuan Sun, Yan Xu, Wenbin Liu, Shuping Zhang, Shawn Afvari, Zhongyi Han, Jiaoyan Song, Yongzhi Ji, Tao Lu, Xiaonan He, Xin Gao, Juexiao Zhou,
- Abstract要約: textbfSkinCaReは、包括的な自然言語記述を備えた包括的なデータセットである。
textbfSkinCAPは、Fitzpatrick 17k皮膚疾患データセットとDiverse Dermatology Imagesデータセットからソースされた4,000のイメージで構成されている。
textbfSkinCoTは、3,041の皮膚科画像と臨床者が検証し、階層的な診断の連鎖を組み合わせた、キュレートされたデータセットである。
- 参考スコア(独自算出の注目度): 20.883012595896243
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the widespread application of artificial intelligence (AI), particularly deep learning (DL) and vision large language models (VLLMs), in skin disease diagnosis, the need for interpretability becomes crucial. However, existing dermatology datasets are limited in their inclusion of concept-level meta-labels, and none offer rich medical descriptions in natural language. This deficiency impedes the advancement of LLM-based methods in dermatologic diagnosis. To address this gap and provide a meticulously annotated dermatology dataset with comprehensive natural language descriptions, we introduce \textbf{SkinCaRe}, a comprehensive multimodal resource that unifies \textit{SkinCAP} and \textit{SkinCoT}. \textbf{SkinCAP} comprises 4,000 images sourced from the Fitzpatrick 17k skin disease dataset and the Diverse Dermatology Images dataset, annotated by board-certified dermatologists to provide extensive medical descriptions and captions. In addition, we introduce \textbf{SkinCoT}, a curated dataset pairing 3,041 dermatologic images with clinician-verified, hierarchical chain-of-thought (CoT) diagnoses. Each diagnostic narrative is rigorously evaluated against six quality criteria and iteratively refined until it meets a predefined standard of clinical accuracy and explanatory depth. Together, SkinCAP (captioning) and SkinCoT (reasoning), collectively referred to as SkinCaRe, encompass 7,041 expertly curated dermatologic cases and provide a unified and trustworthy resource for training multimodal models that both describe and explain dermatologic images. SkinCaRe is publicly available at https://huggingface.co/datasets/yuhos16/SkinCaRe.
- Abstract(参考訳): 人工知能(AI)、特に深層学習(DL)や視覚大言語モデル(VLLM)の皮膚疾患診断への応用により、解釈可能性の必要性が重要となる。
しかしながら、既存の皮膚科学データセットは概念レベルのメタラベルを含めることに制限があり、自然言語で豊富な医学的記述を提供するものはない。
この欠損は、皮膚科診断におけるLSM法の発展を阻害する。
このギャップに対処し、包括的自然言語記述を伴う微妙に注釈付けされた皮膚科学データセットを提供するために、 \textit{SkinCap} と \textit{SkinCoT} を統一する包括的マルチモーダルリソースである \textbf{SkinCaRe} を紹介する。
\textbf{SkinCAP} は Fitzpatrick 17k の皮膚疾患データセットと Diverse Dermatology Images データセットから得られた4,000枚の画像から構成される。
さらに,臨床で検証された階層的チェーン・オブ・シント(CoT)診断と,3,041の皮膚科的イメージを組み合わせたキュレートデータセットである \textbf{SkinCoT} を紹介した。
各診断物語は、6つの品質基準に対して厳格に評価され、臨床精度と説明深さの基準を満たすまで反復的に洗練される。
SkinCAP(Captioning)とSkinCoT(reasoning)は共同でSkinCaReと呼ばれ、7,041の専門的に治療された皮膚疾患を包含し、皮膚画像の説明と説明を行うマルチモーダルモデルをトレーニングするための統一的で信頼性の高いリソースを提供する。
SkinCaReはhttps://huggingface.co/datasets/yuhos16/SkinCaReで公開されている。
関連論文リスト
- Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - DermaCon-IN: A Multi-concept Annotated Dermatological Image Dataset of Indian Skin Disorders for Clinical AI Research [3.3114401663331137]
DermaCon-INは、南インドで約3000人の患者から5450件以上の臨床画像が収集されたデータセットである。
それぞれの画像は、240以上の異なる診断がなされ、階層的、エチオロジーに基づく分類の下に構築された、ボード認証された皮膚科医によって注釈付けされる。
このデータセットは、インドにおける外来医療でよく見られる皮膚学的な状況と声調の変化を、幅広い範囲で捉えている。
論文 参考訳(メタデータ) (2025-06-06T13:59:08Z) - MAKE: Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment [12.665019147690975]
MAKEはゼロショット皮膚科学タスクのための視覚言語事前学習フレームワークである。
臨床物語を知識に富んだサブテキストに分解する。
臨床上の意義に基づいて、異なるサブカプセルを優先順位付けする。
論文 参考訳(メタデータ) (2025-05-14T13:24:08Z) - MM-Skin: Enhancing Dermatology Vision-Language Model with an Image-Text Dataset Derived from Textbooks [15.746023359967005]
医療ビジョン言語モデル(VLM)は、様々な医療分野における臨床助手として期待されている。
SkinVLは皮膚疾患の正確な解釈のために設計された皮膚科固有のVLMである。
MM-Skinは、最初の大規模マルチモーダル皮膚科学データセットである。
論文 参考訳(メタデータ) (2025-05-09T16:03:47Z) - Derm1M: A Million-scale Vision-Language Dataset Aligned with Clinical Ontology Knowledge for Dermatology [20.650401805716744]
本稿では,1029,761個の画像テキストペアからなる皮膚科における最初の大規模視覚言語データセットであるDerm1Mを提案する。
AI研究と臨床応用の進展におけるDerm1Mの可能性を示すために、我々はこのデータセット上で一連のCLIPライクなモデル(DermLIP)を事前訓練した。
論文 参考訳(メタデータ) (2025-03-19T05:30:01Z) - DermaSynth: Rich Synthetic Image-Text Pairs Using Open Access Dermatology Datasets [0.9094611563359232]
Derma Synthは、45,205の画像からキュレートされた92,020の合成画像-テキストペアのデータセットである。
Gemini 2.0を用いた最先端の視覚大言語モデルを利用して、多種多様なリッチな合成テキストを生成する。
論文 参考訳(メタデータ) (2025-01-31T22:26:33Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。
UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。
我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文 参考訳(メタデータ) (2024-12-13T18:59:40Z) - A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - PASSION for Dermatology: Bridging the Diversity Gap with Pigmented Skin Images from Sub-Saharan Africa [29.405369900938393]
アフリカでは皮膚科医が大幅に不足しており、人口は100万人に満たない。
これは、皮膚疾患に苦しむ小児人口の80%が皮膚疾患に悩まされている皮膚科医に対する高い需要とは対照的である。
PASSIONプロジェクトは、このデータをオープンソース化することを目的として、サブサハラ諸国の皮膚疾患の画像を収集し、この問題に対処することを目的としている。
論文 参考訳(メタデータ) (2024-11-07T10:11:37Z) - Equitable Skin Disease Prediction Using Transfer Learning and Domain Adaptation [1.9505972437091028]
皮膚科学における既存の人工知能(AI)モデルは、様々な皮膚のトーンで病気を正確に診断する上で困難に直面している。
我々は、様々な画像領域からのリッチでトランスファー可能な知識を活かしたトランスファーラーニングアプローチを採用する。
あらゆる手法の中で、Med-ViTは様々な画像ソースから学んだ包括的な特徴表現のためにトップパフォーマーとして登場した。
論文 参考訳(メタデータ) (2024-09-01T23:48:26Z) - MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。
65以上の疾患に対する多彩なアノテーションを備えた10のモダリティで、2500万以上の画像をカバーしている。
画像テキストペアの可用性に制限がある既存のマルチモーダルデータセットとは異なり、我々は最初の自動パイプラインを開発した。
論文 参考訳(メタデータ) (2024-08-06T02:09:35Z) - DERM12345: A Large, Multisource Dermatoscopic Skin Lesion Dataset with 38 Subclasses [0.48212500317840945]
本研究は,12,345枚の皮膚内視鏡像と38種類の皮膚病変からなる多彩なデータセットをトゥルカイで収集した。
このデータセットは、5つのスーパークラス、15のメインクラス、38のサブクラス、12,345の高解像度皮膚内視鏡画像を持つ多様な構造を通して識別される。
論文 参考訳(メタデータ) (2024-06-11T16:27:32Z) - SkinGEN: an Explainable Dermatology Diagnosis-to-Generation Framework with Interactive Vision-Language Models [52.90397538472582]
SkinGENは、VLMが提供する診断結果から参照デモを生成する、診断から生成までのフレームワークである。
システム性能と説明可能性の両方を評価するために,32人の参加者によるユーザスタディを実施している。
その結果、SkinGENはVLM予測に対するユーザの理解を著しく改善し、診断プロセスへの信頼を高めることが示されている。
論文 参考訳(メタデータ) (2024-04-23T05:36:33Z) - Optimizing Skin Lesion Classification via Multimodal Data and Auxiliary
Task Integration [54.76511683427566]
本研究は, スマートフォンで撮影した画像と本質的な臨床および人口統計情報を統合することで, 皮膚病変を分類する新しいマルチモーダル手法を提案する。
この手法の特徴は、超高解像度画像予測に焦点を当てた補助的なタスクの統合である。
PAD-UFES20データセットを用いて,様々なディープラーニングアーキテクチャを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-16T05:16:20Z) - ERCPMP: An Endoscopic Image and Video Dataset for Colorectal Polyps
Morphology and Pathology [0.0]
本データセットは,大腸ポリープ191例の人口統計,形態学的,病理的データ,内視鏡的画像,ビデオを含む。
病理組織学的には, 尿細管, ウイルス, ツブロビラス, 過形成, 血清, 炎症, 腺癌, 異型度などのポリープが診断された。
論文 参考訳(メタデータ) (2023-07-28T09:52:20Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - SkinCon: A skin disease dataset densely annotated by domain experts for
fine-grained model debugging and analysis [9.251248318564617]
概念は人間にとって意味のあるメタラベルである。
医学における厳密な注釈付きデータセットは、メラノーマのような単一の疾患に関連するメタラベルに焦点を当てた。
SkinConにはFitzpatrick 17kデータセットから3230枚の画像が含まれており、48の臨床的概念が付加されている。
論文 参考訳(メタデータ) (2023-02-01T22:39:51Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。