論文の概要: Evaluating General Purpose Vision Foundation Models for Medical Image Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks
- arxiv url: http://arxiv.org/abs/2312.02366v4
- Date: Sat, 14 Sep 2024 03:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 03:27:25.385728
- Title: Evaluating General Purpose Vision Foundation Models for Medical Image Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks
- Title(参考訳): 医用画像解析のための汎用視覚基盤モデルの評価:放射線診断ベンチマークにおけるDINOv2の実験的検討
- Authors: Mohammed Baharoon, Waseem Qureshi, Jiahong Ouyang, Yanwu Xu, Abdulrhman Aljouie, Wei Peng,
- Abstract要約: DINOv2はオープンソースのファンデーションモデルで、1億4200万のキュレートされた自然画像に対する自己教師付き学習を事前訓練している。
本研究は放射線学におけるDINOv2の性能を総合的に評価する。
- 参考スコア(独自算出の注目度): 5.8941124219471055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of deep learning systems into healthcare has been hindered by the resource-intensive process of data annotation and the inability of these systems to generalize to different data distributions. Foundation models, which are models pre-trained on large datasets, have emerged as a solution to reduce reliance on annotated data and enhance model generalizability and robustness. DINOv2 is an open-source foundation model pre-trained with self-supervised learning on 142 million curated natural images that exhibits promising capabilities across various vision tasks. Nevertheless, a critical question remains unanswered regarding DINOv2's adaptability to radiological imaging, and whether its features are sufficiently general to benefit radiology image analysis. Therefore, this study comprehensively evaluates the performance DINOv2 for radiology, conducting over 200 evaluations across diverse modalities (X-ray, CT, and MRI). To measure the effectiveness and generalizability of DINOv2's feature representations, we analyze the model across medical image analysis tasks including disease classification and organ segmentation on both 2D and 3D images, and under different settings like kNN, few-shot learning, linear-probing, end-to-end fine-tuning, and parameter-efficient fine-tuning. Comparative analyses with established supervised, self-supervised, and weakly-supervised models reveal DINOv2's superior performance and cross-task generalizability. The findings contribute insights to potential avenues for optimizing pre-training strategies for medical imaging and enhancing the broader understanding of DINOv2's role in bridging the gap between natural and radiological image analysis. Our code is available at https://github.com/MohammedSB/DINOv2ForRadiology
- Abstract(参考訳): 深層学習システムの医療への統合は、データアノテーションのリソース集約的なプロセスと、これらのシステムが異なるデータ分布に一般化できないことによって妨げられている。
大規模なデータセットで事前トレーニングされたモデルであるファンデーションモデルは、アノテーション付きデータへの依存を減らし、モデルの一般化性と堅牢性を高めるソリューションとして登場した。
DINOv2はオープンソースのファウンデーションモデルで、1億4200万のキュレーションされた自然画像を自己教師付きで学習し、様々なビジョンタスクで有望な能力を示す。
しかしながら、DINOv2の放射線画像への適応性や、その特徴が放射線画像解析に有用であるかどうかについては、重要な疑問が残る。
そこで本研究では,放射線学におけるDINOv2の性能を総合的に評価し,X線,CT,MRIで200以上の評価を行った。
DINOv2の特徴表現の有効性と一般化性を評価するため, 2次元画像と3次元画像の両方における疾患分類と臓器セグメント化を含む医用画像解析作業, kNN, 少数ショット学習, 線形プロブリング, エンドツーエンドファインチューニング, パラメータ効率の微調整などの異なる設定下で, モデルの解析を行った。
確立された教師付き、自己監督型、弱教師付きモデルとの比較分析により、DINOv2の優れた性能とクロスタスクの一般化性が示された。
本研究は,DINOv2が自然画像解析と放射線画像解析のギャップを埋める上で果たす役割の理解を深め,医用画像撮影のための事前訓練戦略の最適化に寄与する可能性が示唆された。
私たちのコードはhttps://github.com/MohammedSB/DINOv2ForRadiologyで利用可能です。
関連論文リスト
- Abnormality-Driven Representation Learning for Radiology Imaging [0.8321462983924758]
病変強調型コントラスト学習(LeCL)は,CTスキャンの異なる部位にわたる2次元軸方向スライスにおける異常により引き起こされる視覚的表現を得るための新しい手法である。
本研究は, 腫瘍病変位置, 肺疾患検出, 患者ステージングの3つの臨床的課題に対するアプローチを, 最先端の4つの基礎モデルと比較した。
論文 参考訳(メタデータ) (2024-11-25T13:53:26Z) - Assessing the Performance of the DINOv2 Self-supervised Learning Vision Transformer Model for the Segmentation of the Left Atrium from MRI Images [1.2499537119440245]
DINOv2は、MRIを用いたLAセグメンテーションのための自然画像に基づいて訓練された自己教師型学習視覚変換器である。
我々は、Diceスコアが.871で、Jaccard Indexが.792で、エンドツーエンドの微調整が可能な、正確で一貫したセグメンテーションを提供する能力を示す。
これらの結果は、DINOv2がMRIに限られたデータで効果的に適応し、セグメンテーションの競争ツールとしての可能性を強調し、医療画像の幅広い利用を促進することを示唆している。
論文 参考訳(メタデータ) (2024-11-14T17:15:51Z) - Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning [49.197385954021456]
臨床実践では、2次元磁気共鳴(MR)シーケンスが広く採用されている。個々の2次元スライスを積み重ねて3次元ボリュームを形成できるが、比較的大きなスライスススペーシングは可視化とその後の解析タスクに課題をもたらす可能性がある。
スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。
現在のほとんどのソリューションは、教師付きトレーニングのために、かなりの数の高解像度と低解像度の画像を必要とするが、通常は現実のシナリオでは利用できない。
論文 参考訳(メタデータ) (2024-06-10T02:20:26Z) - Comparative Analysis of ImageNet Pre-Trained Deep Learning Models and
DINOv2 in Medical Imaging Classification [7.205610366609243]
本稿では,脳MRIデータの3つの臨床的モダリティを用いたグリオーマグレーディングタスクを行った。
我々は、ImageNetやDINOv2をベースとした様々な事前学習深層学習モデルの性能を比較した。
臨床データでは,DINOv2 はImageNet ベースで事前訓練したモデルほど優れていなかった。
論文 参考訳(メタデータ) (2024-02-12T11:49:08Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - ROCT-Net: A new ensemble deep convolutional model with improved spatial
resolution learning for detecting common diseases from retinal OCT images [0.0]
本稿では,OCT画像から網膜疾患を検出するために,新たな深層アンサンブル畳み込みニューラルネットワークを提案する。
本モデルは,2つの頑健な畳み込みモデルの学習アーキテクチャを用いて,リッチかつマルチレゾリューションな特徴を生成する。
2つのデータセットに関する実験と、他のよく知られた深層畳み込みニューラルネットワークとの比較により、アーキテクチャが分類精度を最大5%向上できることが証明された。
論文 参考訳(メタデータ) (2022-03-03T17:51:01Z) - InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal
Artifact Reduction in CT Images [53.4351366246531]
InDuDoNet+と呼ばれる新しい解釈可能な二重ドメインネットワークを構築し、CT画像の微細な埋め込みを行う。
異なる組織間のCT値を分析し,InDuDoNet+の事前観測ネットワークにマージすることで,その一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-23T15:52:37Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Generalization of Deep Convolutional Neural Networks -- A Case-study on
Open-source Chest Radiographs [2.934426478974089]
主要な課題の1つは、内部データと外部データの両方で顕著なパフォーマンスを持つDCNNモデルを考案することである。
我々は、DCNNが新しいデータに一般化しないかもしれないが、トレーニングデータの質と不均一性を高めることは、一般化率を改善するのに役立つことを示した。
論文 参考訳(メタデータ) (2020-07-11T14:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。