論文の概要: Are General-Purpose Vision Models All We Need for 2D Medical Image Segmentation? A Cross-Dataset Empirical Study
- arxiv url: http://arxiv.org/abs/2603.13044v1
- Date: Fri, 13 Mar 2026 14:52:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.139023
- Title: Are General-Purpose Vision Models All We Need for 2D Medical Image Segmentation? A Cross-Dataset Empirical Study
- Title(参考訳): 2次元医用画像セグメンテーションに必要な汎用視覚モデル : クロスデータセット実証研究
- Authors: Vanessa Borst, Samuel Kounev,
- Abstract要約: 本研究では,2次元医用画像に対して,SMAと汎用ビジョンモデル(GP-VM)を比較した。
分析されたデータセットでは、GP-VMは特別なMISモデルの大部分を上回ります。
XAI分析は、GP-VMが明示的なドメイン固有のアーキテクチャ設計なしで臨床的に関係のある構造をキャプチャできることを示している。
- 参考スコア(独自算出の注目度): 1.0898188221663585
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical image segmentation (MIS) is a fundamental component of computer-assisted diagnosis and clinical decision support systems. Over the past decade, numerous architectures specifically tailored to medical imaging have emerged to address domain-specific challenges such as low contrast, small anatomical structures, and limited annotated data. In parallel, rapid progress in computer vision has produced highly capable general-purpose vision models (GP-VMs) originally designed for natural images. Despite their strong performance on standard vision benchmarks, their effectiveness for MIS remains insufficiently understood. In this work, we conduct a controlled empirical study to examine whether specialized medical segmentation architectures (SMAs) provide systematic advantages over modern GP-VMs for 2D MIS. We compare eleven SMAs and GP-VMs using a unified training and evaluation protocol. Experiments are performed across three heterogeneous datasets covering different imaging modalities, class structures, and data characteristics. Beyond segmentation accuracy, we analyze qualitative Grad-CAM visualizations to investigate explainability (XAI) behavior. Our results demonstrate that, for the analyzed datasets, GP-VMs out-perform the majority of specialized MIS models. Moreover, XAI analyses indicate that GP-VMs can capture clinically relevant structures without explicit domain-specific architectural design. These findings suggest that GP-VMs can represent a viable alternative to domain-specific methods, highlighting the importance of informed model selection for end-to-end MIS systems. All code and resources are available at GitHub.
- Abstract(参考訳): 医用画像セグメンテーション(MIS)はコンピュータ支援診断と臨床診断支援システムの基本的な構成要素である。
過去10年間で、低コントラスト、小さな解剖学的構造、限られた注釈付きデータといったドメイン固有の課題に対処するために、医用画像に特化された多くのアーキテクチャが出現した。
コンピュータビジョンの急速な進歩は、もともと自然画像用に設計された高機能汎用ビジョンモデル(GP-VM)を生み出している。
標準ビジョンベンチマークの性能は高いが、MISの有効性は十分に理解されていない。
本研究では,2次元MISのためのGP-VMに対して,SMAが体系的な優位性をもたらすかどうかを実証的に検討する。
統一的なトレーニングと評価プロトコルを用いて,11のSMAとGP-VMを比較した。
異なる画像モダリティ、クラス構造、データ特性を含む3つの異種データセットで実験を行う。
セグメンテーションの精度を超えて、定性的なGrad-CAM可視化を分析し、説明可能性(XAI)の振る舞いを調べる。
分析結果から,GP-VMはMISモデルの大部分を上回る性能を示した。
さらに,XAI分析により,GP-VMは明示的なドメイン固有のアーキテクチャ設計なしで臨床的に関係のある構造を捉えることができることが示された。
これらの結果から,GP-VMはドメイン固有手法の代替となる可能性を示し,エンドツーエンドMISシステムにおける情報モデル選択の重要性を強調した。
すべてのコードとリソースはGitHubで入手できる。
関連論文リスト
- Vision Foundry: A System for Training Foundational Vision AI Models [0.0]
Vision FoundryはコードフリーのHIPAA準拠のプラットフォームで、ビジョンモデルの事前トレーニング、適応、デプロイを民主化する。
高度な表現学習と実践的応用のギャップを埋めることで、Vision Foundryはドメインの専門家が最先端の臨床AIツールを開発することを可能にする。
論文 参考訳(メタデータ) (2025-12-03T14:02:22Z) - Does DINOv3 Set a New Medical Vision Standard? [67.33543059306938]
本報告は、DINOv3が、ドメイン固有の事前トレーニングなしで、医用視覚タスクのための強力な統合エンコーダとして機能するかどうかを考察する。
我々はDINOv3を2D/3D分類やセグメンテーションを含む一般的な医療ビジョンタスクでベンチマークした。
注目すべきは、いくつかのタスクでBiomedCLIPやCT-Netといった医療固有の基礎モデルよりも優れていることだ。
論文 参考訳(メタデータ) (2025-09-08T09:28:57Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - MIRAGE: Multimodal foundation model and benchmark for comprehensive retinal OCT image analysis [4.361234801854702]
MIRAGEは、OCTと走査型レーザー眼鏡(SLO)画像の解析のための新しいFMである。
OCT/SLO分類とセグメンテーションタスクを用いた新しい評価ベンチマークを提案する。
一般および専門的なFMとセグメンテーション法との比較は,MIRAGEの両タスクにおける優位性を示している。
論文 参考訳(メタデータ) (2025-06-10T15:25:55Z) - VIS-MAE: An Efficient Self-supervised Learning Approach on Medical Image Segmentation and Classification [33.699424327366856]
医用画像に特化して設計された新しいモデルウェイトであるVisualization and Masked AutoEncoder(VIS-MAE)について述べる。
VIS-MAEは、様々なモダリティから250万枚の未ラベル画像のデータセットで訓練されている。
その後、明示的なラベルを使って分類とセグメンテーションのタスクに適応する。
論文 参考訳(メタデータ) (2024-02-01T21:45:12Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Artificial General Intelligence for Medical Imaging Analysis [92.3940918983821]
大規模人工知能(AGI)モデルは、様々な汎用ドメインタスクにおいて前例のない成功を収めた。
これらのモデルは、医学分野固有の複雑さとユニークな特徴から生じる顕著な課題に直面している。
このレビューは、医療画像、医療などにおけるAGIの将来的な意味についての洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2023-06-08T18:04:13Z) - Domain Shift in Computer Vision models for MRI data analysis: An
Overview [64.69150970967524]
機械学習とコンピュータビジョン手法は、医用画像解析において優れた性能を示している。
しかし、現在臨床応用はごくわずかである。
異なるソースや取得ドメインのデータへのモデルの不適切な転送性は、その理由の1つです。
論文 参考訳(メタデータ) (2020-10-14T16:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。