論文の概要: Derm1M: A Million-scale Vision-Language Dataset Aligned with Clinical Ontology Knowledge for Dermatology
- arxiv url: http://arxiv.org/abs/2503.14911v1
- Date: Wed, 19 Mar 2025 05:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:46.967166
- Title: Derm1M: A Million-scale Vision-Language Dataset Aligned with Clinical Ontology Knowledge for Dermatology
- Title(参考訳): Derm1M:皮膚科における臨床オントロジー知識を応用した数百万の視覚領域データセット
- Authors: Siyuan Yan, Ming Hu, Yiwen Jiang, Xieji Li, Hao Fei, Philipp Tschandl, Harald Kittler, Zongyuan Ge,
- Abstract要約: 本稿では,1029,761個の画像テキストペアからなる皮膚科における最初の大規模視覚言語データセットであるDerm1Mを提案する。
AI研究と臨床応用の進展におけるDerm1Mの可能性を示すために、我々はこのデータセット上で一連のCLIPライクなモデル(DermLIP)を事前訓練した。
- 参考スコア(独自算出の注目度): 20.650401805716744
- License:
- Abstract: The emergence of vision-language models has transformed medical AI, enabling unprecedented advances in diagnostic capability and clinical applications. However, progress in dermatology has lagged behind other medical domains due to the lack of standard image-text pairs. Existing dermatological datasets are limited in both scale and depth, offering only single-label annotations across a narrow range of diseases instead of rich textual descriptions, and lacking the crucial clinical context needed for real-world applications. To address these limitations, we present Derm1M, the first large-scale vision-language dataset for dermatology, comprising 1,029,761 image-text pairs. Built from diverse educational resources and structured around a standard ontology collaboratively developed by experts, Derm1M provides comprehensive coverage for over 390 skin conditions across four hierarchical levels and 130 clinical concepts with rich contextual information such as medical history, symptoms, and skin tone. To demonstrate Derm1M potential in advancing both AI research and clinical application, we pretrained a series of CLIP-like models, collectively called DermLIP, on this dataset. The DermLIP family significantly outperforms state-of-the-art foundation models on eight diverse datasets across multiple tasks, including zero-shot skin disease classification, clinical and artifacts concept identification, few-shot/full-shot learning, and cross-modal retrieval. Our dataset and code will be public.
- Abstract(参考訳): ビジョン言語モデルの出現は、医療AIを変革し、診断能力と臨床応用における前例のない進歩を可能にした。
しかし, 皮膚科学の進歩は, 標準的な画像とテキストのペアが欠如していることから, 他の医学領域に遅れを取っている。
既存の皮膚科学データセットは、スケールと深さの両方で制限されており、リッチテキスト記述ではなく、限られた範囲の病気に対して単一のラベルのアノテーションのみを提供し、現実世界のアプリケーションに必要な重要な臨床コンテキストを欠いている。
これらの制約に対処するため,皮膚科における最初の大規模視覚言語データセットであるDerm1Mについて述べる。
様々な教育資源から構築され、専門家が共同開発した標準的なオントロジーを中心に構築され、Derm1Mは4つの階層レベルの390以上の皮膚状態と、医療史、症状、皮膚のトーンといった豊富な文脈情報を備えた130の臨床的概念を包括的にカバーする。
AI研究と臨床応用の進展におけるDerm1Mの可能性を示すために、我々はこのデータセット上で一連のCLIPライクなモデル(DermLIP)を事前訓練した。
DermLIPファミリは、ゼロショット皮膚疾患の分類、臨床とアーティファクトの概念の識別、少数ショット/フルショット学習、およびクロスモーダル検索を含む、さまざまなタスクにまたがる8つの多様なデータセットに関する最先端の基礎モデルよりも、大幅に優れています。
データセットとコードは公開されます。
関連論文リスト
- DermaSynth: Rich Synthetic Image-Text Pairs Using Open Access Dermatology Datasets [0.9094611563359232]
Derma Synthは、45,205の画像からキュレートされた92,020の合成画像-テキストペアのデータセットである。
Gemini 2.0を用いた最先端の視覚大言語モデルを利用して、多種多様なリッチな合成テキストを生成する。
論文 参考訳(メタデータ) (2025-01-31T22:26:33Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。
UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。
我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文 参考訳(メタデータ) (2024-12-13T18:59:40Z) - A General-Purpose Multimodal Foundation Model for Dermatology [14.114262475562846]
PanDermは、皮膚疾患の200万以上の現実世界の画像のデータセット上で、自己教師付き学習を通じて事前訓練されたマルチモーダル皮膚科学の基礎モデルである。
PanDermは評価されたすべてのタスクで最先端のパフォーマンスを達成した。
PanDermは皮膚疾患の管理を強化し、他の医療分野におけるマルチモーダルファンデーションモデルの開発モデルとして機能する。
論文 参考訳(メタデータ) (2024-10-19T08:48:01Z) - SkinCAP: A Multi-modal Dermatology Dataset Annotated with Rich Medical Captions [17.803181915074706]
SkinCAPは、Fitzpatrick 17k皮膚疾患データセットとDiverse Dermatology Imagesデータセットからソースされた4,000の画像で構成されている。
特に、SkinCAPは世界初のそのようなデータセットであり、https://huggingface.co/datasets/joshuachou/SkinCAPで公開されている。
論文 参考訳(メタデータ) (2024-05-28T09:48:23Z) - RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports [19.915033191502328]
Vision-Language Foundationモデルは、コンピュータビジョンと自然言語処理の分野でますます研究されている。
この問題に対処するために,CLIP型網膜画像基盤モデルを開発した。
我々の基礎モデルであるRET-CLIPは、カラーファンドスの一般的な特徴を抽出するために、193,865人の患者のデータセットで特別に訓練されている。
論文 参考訳(メタデータ) (2024-05-23T03:20:51Z) - CLIP in Medical Imaging: A Comprehensive Survey [59.429714742927956]
コントラスト言語-画像事前学習は、視覚モデルにテキスト管理を導入することに成功している。
様々なタスクにおいて有望な結果を示しており、その一般化可能性と解釈可能性に起因している。
CLIPの使用は、最近医療画像領域への関心が高まっている。
論文 参考訳(メタデータ) (2023-12-12T15:21:57Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。