論文の概要: A Hierarchical Benchmark of Foundation Models for Dermatology
- arxiv url: http://arxiv.org/abs/2601.12382v1
- Date: Sun, 18 Jan 2026 12:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.607407
- Title: A Hierarchical Benchmark of Foundation Models for Dermatology
- Title(参考訳): 皮膚科学の基礎モデルの階層的ベンチマーク
- Authors: Furkan Yuceyalcin, Abdurrahim Yilmaz, Burak Temelkuran,
- Abstract要約: 皮膚科における現在のベンチマークは、しばしば、複雑な診断分類をフラットな二分分類タスクに還元する。
この過剰な単純化は、モデルが微細な微分診断を行う能力を曖昧にする。
本研究は, 階層型皮膚病変分類のための基礎モデル10から導かれた埋め込みの有用性について検討した。
- 参考スコア(独自算出の注目度): 0.39325957466009204
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Foundation models have transformed medical image analysis by providing robust feature representations that reduce the need for large-scale task-specific training. However, current benchmarks in dermatology often reduce the complex diagnostic taxonomy to flat, binary classification tasks, such as distinguishing melanoma from benign nevi. This oversimplification obscures a model's ability to perform fine-grained differential diagnoses, which is critical for clinical workflow integration. This study evaluates the utility of embeddings derived from ten foundation models, spanning general computer vision, general medical imaging, and dermatology-specific domains, for hierarchical skin lesion classification. Using the DERM12345 dataset, which comprises 40 lesion subclasses, we calculated frozen embeddings and trained lightweight adapter models using a five-fold cross-validation. We introduce a hierarchical evaluation framework that assesses performance across four levels of clinical granularity: 40 Subclasses, 15 Main Classes, 2 and 4 Superclasses, and Binary Malignancy. Our results reveal a "granularity gap" in model capabilities: MedImageInsights achieved the strongest overall performance (97.52% weighted F1-Score on Binary Malignancy detection) but declined to 65.50% on fine-grained 40-class subtype classification. Conversely, MedSigLip (69.79%) and dermatology-specific models (Derm Foundation and MONET) excelled at fine-grained 40-class subtype discrimination while achieving lower overall performance than MedImageInsights on broader classification tasks. Our findings suggest that while general medical foundation models are highly effective for high-level screening, specialized modeling strategies are necessary for the granular distinctions required in diagnostic support systems.
- Abstract(参考訳): ファンデーションモデルは、大規模タスク固有のトレーニングの必要性を減らす堅牢な特徴表現を提供することで、医療画像分析を変革してきた。
しかしながら、皮膚科における現在のベンチマークでは、複雑な診断分類を、良性ネビとメラノーマを区別するなど、フラットな二分分類タスクに還元することが多い。
この過度な単純化により、モデルが細粒度の差分診断を行う能力は曖昧になり、これは臨床ワークフローの統合に不可欠である。
本研究は, 階層型皮膚病変分類における, 一般的なコンピュータビジョン, 一般医用画像, 皮膚科固有の領域にまたがる10種類の基礎モデルからの埋め込みの有用性について検討した。
40個の損傷サブクラスからなるDERM12345データセットを用いて, 5倍のクロスバリデーションを用いて凍結埋め込みと訓練された軽量アダプタモデルを計算した。
本報告では,40サブクラス,15メインクラス,2スーパークラス,4スーパークラス,2つの悪性度という,4段階にわたるパフォーマンスを評価する階層的評価フレームワークについて紹介する。
MedImageInsightsは97.52%の重み付きF1-Score on Binary Malignancy Detection(F1-Score on Binary Malignancy Detection)を達成したが、細粒度40クラスのサブタイプ分類では65.50%まで低下した。
逆に、MedSigLip (69.79%) と皮膚学固有のモデル (Derm Foundation と MONET) は、より詳細な40クラスのサブタイプ識別に優れ、より広範な分類タスクにおいてMedImageInsightsよりも全体的なパフォーマンスが低い。
本研究は, 一般医療基盤モデルが高レベルのスクリーニングに極めて有効であるのに対し, 診断支援システムにおいて, 粒度を識別するためには, 専門的なモデリング戦略が必要であることを示唆する。
関連論文リスト
- DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs [54.8829900010621]
MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。
これらのギャップに対処するための包括的なフレームワークを提示します。
まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。
第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
論文 参考訳(メタデータ) (2026-01-05T07:55:36Z) - From Classification to Cross-Modal Understanding: Leveraging Vision-Language Models for Fine-Grained Renal Pathology [9.268389327736735]
臨床的に現実的な数ショット問題として,細粒度糸球体サブタイプをモデル化した。
この条件下では、病理特化モデルと汎用視覚言語モデルの両方を評価する。
論文 参考訳(メタデータ) (2025-11-15T01:44:11Z) - Glo-VLMs: Leveraging Vision-Language Models for Fine-Grained Diseased Glomerulus Classification [7.87247433522498]
本稿では,視覚言語モデルの細粒度分類への適応を探求する体系的なフレームワークであるGlo-VLMを紹介する。
本手法は,臨床用テキストプロンプトとともに治療された病理画像を活用し,共同画像・テキスト表現学習を容易にする。
本研究は, 標準化されたマルチクラスメトリクスを用いて, 臨床応用のための大規模事前学習モデルの実用的要件と可能性を明らかにすることを目的として, 全モデルの評価を行う。
論文 参考訳(メタデータ) (2025-08-21T21:05:44Z) - DermINO: Hybrid Pretraining for a Versatile Dermatology Foundation Model [92.66916452260553]
DermNIOは皮膚科学の多目的基盤モデルである。
自己教師型学習パラダイムを増強する、新しいハイブリッド事前学習フレームワークが組み込まれている。
さまざまなタスクにおいて、最先端のモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-17T00:41:39Z) - Transfer Learning Strategies for Pathological Foundation Models: A Systematic Evaluation in Brain Tumor Classification [8.170992842607339]
大規模病理データセットで事前訓練された基礎モデルは、様々な診断タスクで有望な結果を示している。
原発性中枢神経性リンパ腫,転移性腫瘍の5種類の悪性腫瘍について検討した。
その結果,ケースごとの大規模な画像サンプリングが必要とされるという従来の前提に拘わらず,各ケースにつき10パッチ程度の堅牢な分類性能を示した。
論文 参考訳(メタデータ) (2025-01-19T11:18:34Z) - Exploring Foundation Models Fine-Tuning for Cytology Classification [0.10555513406636088]
既存の基盤モデルが細胞学的分類にどのように適用できるかを示す。
4つの細胞分類データセットにまたがる5つの基盤モデルを評価する。
以上の結果から,LoRAによる事前学習したバックボーンの微調整により,モデル性能が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-22T14:34:04Z) - Fairness Evolution in Continual Learning for Medical Imaging [47.52603262576663]
本研究では、ドメイン固有の公平度指標を用いてタスク間でバイアスがどのように進化し、異なるCL戦略がこの進化にどのように影響するかを検討する。
以上の結果から,擬似ラベルと擬似ラベルの学習は最適分類性能を実現するが,擬似ラベルの偏りは小さいことが示唆された。
論文 参考訳(メタデータ) (2024-04-10T09:48:52Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders [50.689585476660554]
本稿では,正対損失緩和とランダムな文サンプリングを含む新たな微調整手法を提案する。
提案手法は,胸部X線データセットと3つの事前訓練モデル間のゼロショット病理分類を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-14T06:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。