論文の概要: Towards General Purpose Vision Foundation Models for Medical Image
Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks
- arxiv url: http://arxiv.org/abs/2312.02366v3
- Date: Thu, 28 Dec 2023 18:36:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 21:36:17.876014
- Title: Towards General Purpose Vision Foundation Models for Medical Image
Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks
- Title(参考訳): 医用画像解析のための汎用視覚基盤モデルに向けて--ラジオロジーベンチマークによるdinov2の実験的検討
- Authors: Mohammed Baharoon, Waseem Qureshi, Jiahong Ouyang, Yanwu Xu,
Abdulrhman Aljouie, Wei Peng
- Abstract要約: DINOv2はオープンソースのファンデーションモデルで、1億4200万のキュレートされた自然画像に対する自己教師付き学習を事前訓練している。
本研究は放射線学におけるDINOv2を総合的に評価し,多種多様な実験を行った。
- 参考スコア(独自算出の注目度): 6.2454947749350165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of deep learning systems into healthcare has been hindered by
the resource-intensive process of data annotation and the inability of these
systems to generalize to different data distributions. Foundation models, which
are models pre-trained on large datasets, have emerged as a solution to reduce
reliance on annotated data and enhance model generalizability and robustness.
DINOv2 is an open-source foundation model pre-trained with self-supervised
learning on 142 million curated natural images that exhibits promising
capabilities across various vision tasks. Nevertheless, a critical question
remains unanswered regarding DINOv2's adaptability to radiological imaging, and
whether its features are sufficiently general to benefit radiology image
analysis. Therefore, this study comprehensively evaluates DINOv2 for radiology,
conducting over 100 experiments across diverse modalities (X-ray, CT, and MRI).
To measure the effectiveness and generalizability of DINOv2's feature
representations, we analyze the model across medical image analysis tasks
including disease classification and organ segmentation on both 2D and 3D
images, and under different settings like kNN, few-shot learning,
linear-probing, end-to-end fine-tuning, and parameter-efficient fine-tuning.
Comparative analyses with established supervised, self-supervised, and
weakly-supervised models reveal DINOv2's superior performance and cross-task
generalizability. The findings contribute insights to potential avenues for
optimizing pre-training strategies for medical imaging and enhancing the
broader understanding of DINOv2's role in bridging the gap between natural and
radiological image analysis. Our code is available at
https://github.com/MohammedSB/DINOv2ForRadiology
- Abstract(参考訳): 深層学習システムの医療への統合は、データアノテーションのリソース集約的なプロセスと、異なるデータ分布に一般化できないことで妨げられている。
大規模なデータセットで事前トレーニングされたモデルである基盤モデルは、注釈付きデータへの依存を減らし、モデルの一般化性と堅牢性を高めるソリューションとして登場した。
DINOv2はオープンソースのファウンデーションモデルで、1億4200万のキュレーションされた自然画像を自己教師付きで学習し、様々なビジョンタスクで有望な能力を示す。
しかしながら、DINOv2の放射線画像への適応性や、その特徴が放射線画像解析に有用であるかどうかについては、重要な疑問が残る。
そこで本研究では,放射線学におけるDINOv2を総合的に評価し,X線,CT,MRIなど多種多様な実験を100以上行った。
DINOv2の特徴表現の有効性と一般化性を評価するため, 2次元画像と3次元画像の両方における疾患分類と臓器セグメント化を含む医用画像解析作業, kNN, 少数ショット学習, 線形プロブリング, エンドツーエンドファインチューニング, パラメータ効率の微調整などの異なる設定下でのモデル解析を行った。
確立された教師付き、自己監督型、弱教師付きモデルとの比較分析により、DINOv2の優れた性能とクロスタスクの一般化性が示された。
本研究は,DINOv2が自然画像解析と放射線画像解析のギャップを埋める上で果たす役割について,医療画像のトレーニング前戦略を最適化し,より広範に理解するための潜在的手段への洞察に寄与する。
私たちのコードはhttps://github.com/MohammedSB/DINOv2ForRadiologyで利用可能です。
関連論文リスト
- Abnormality-Driven Representation Learning for Radiology Imaging [0.8321462983924758]
病変強調型コントラスト学習(LeCL)は,CTスキャンの異なる部位にわたる2次元軸方向スライスにおける異常により引き起こされる視覚的表現を得るための新しい手法である。
本研究は, 腫瘍病変位置, 肺疾患検出, 患者ステージングの3つの臨床的課題に対するアプローチを, 最先端の4つの基礎モデルと比較した。
論文 参考訳(メタデータ) (2024-11-25T13:53:26Z) - Assessing the Performance of the DINOv2 Self-supervised Learning Vision Transformer Model for the Segmentation of the Left Atrium from MRI Images [1.2499537119440245]
DINOv2は、MRIを用いたLAセグメンテーションのための自然画像に基づいて訓練された自己教師型学習視覚変換器である。
我々は、Diceスコアが.871で、Jaccard Indexが.792で、エンドツーエンドの微調整が可能な、正確で一貫したセグメンテーションを提供する能力を示す。
これらの結果は、DINOv2がMRIに限られたデータで効果的に適応し、セグメンテーションの競争ツールとしての可能性を強調し、医療画像の幅広い利用を促進することを示唆している。
論文 参考訳(メタデータ) (2024-11-14T17:15:51Z) - Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning [49.197385954021456]
臨床実践では、2次元磁気共鳴(MR)シーケンスが広く採用されている。個々の2次元スライスを積み重ねて3次元ボリュームを形成できるが、比較的大きなスライスススペーシングは可視化とその後の解析タスクに課題をもたらす可能性がある。
スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。
現在のほとんどのソリューションは、教師付きトレーニングのために、かなりの数の高解像度と低解像度の画像を必要とするが、通常は現実のシナリオでは利用できない。
論文 参考訳(メタデータ) (2024-06-10T02:20:26Z) - Comparative Analysis of ImageNet Pre-Trained Deep Learning Models and
DINOv2 in Medical Imaging Classification [7.205610366609243]
本稿では,脳MRIデータの3つの臨床的モダリティを用いたグリオーマグレーディングタスクを行った。
我々は、ImageNetやDINOv2をベースとした様々な事前学習深層学習モデルの性能を比較した。
臨床データでは,DINOv2 はImageNet ベースで事前訓練したモデルほど優れていなかった。
論文 参考訳(メタデータ) (2024-02-12T11:49:08Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - ROCT-Net: A new ensemble deep convolutional model with improved spatial
resolution learning for detecting common diseases from retinal OCT images [0.0]
本稿では,OCT画像から網膜疾患を検出するために,新たな深層アンサンブル畳み込みニューラルネットワークを提案する。
本モデルは,2つの頑健な畳み込みモデルの学習アーキテクチャを用いて,リッチかつマルチレゾリューションな特徴を生成する。
2つのデータセットに関する実験と、他のよく知られた深層畳み込みニューラルネットワークとの比較により、アーキテクチャが分類精度を最大5%向上できることが証明された。
論文 参考訳(メタデータ) (2022-03-03T17:51:01Z) - InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal
Artifact Reduction in CT Images [53.4351366246531]
InDuDoNet+と呼ばれる新しい解釈可能な二重ドメインネットワークを構築し、CT画像の微細な埋め込みを行う。
異なる組織間のCT値を分析し,InDuDoNet+の事前観測ネットワークにマージすることで,その一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-23T15:52:37Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Generalization of Deep Convolutional Neural Networks -- A Case-study on
Open-source Chest Radiographs [2.934426478974089]
主要な課題の1つは、内部データと外部データの両方で顕著なパフォーマンスを持つDCNNモデルを考案することである。
我々は、DCNNが新しいデータに一般化しないかもしれないが、トレーニングデータの質と不均一性を高めることは、一般化率を改善するのに役立つことを示した。
論文 参考訳(メタデータ) (2020-07-11T14:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。