論文の概要: Towards General Purpose Vision Foundation Models for Medical Image
Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks
- arxiv url: http://arxiv.org/abs/2312.02366v1
- Date: Mon, 4 Dec 2023 21:47:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 17:26:36.221263
- Title: Towards General Purpose Vision Foundation Models for Medical Image
Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks
- Title(参考訳): 医用画像解析のための汎用視覚基盤モデルに向けて--ラジオロジーベンチマークによるdinov2の実験的検討
- Authors: Mohammed Baharoon, Waseem Qureshi, Jiahong Ouyang, Yanwu Xu, Kilian
Phol, Abdulrhman Aljouie, Wei Peng
- Abstract要約: DINOv2は、1億4200万のキュレートされた自然画像に対する自己教師型学習を事前訓練したオープンソースの基礎モデルで、汎用的な視覚表現の抽出に優れています。
本研究は放射線学におけるDINOv2を総合的に評価し,多種多様な実験を行った。
- 参考スコア(独自算出の注目度): 5.8941124219471055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of deep learning systems into the medical domain has been
hindered by the resource-intensive process of data annotation and the inability
of these systems to generalize to different data distributions. Foundation
models, which are models pre-trained on large datasets, have emerged as a
solution to reduce reliance on annotated data and enhance model
generalizability and robustness. DINOv2, an open-source foundation model
pre-trained with self-supervised learning on 142 million curated natural
images, excels in extracting general-purpose visual representations, exhibiting
promising capabilities across various vision tasks. Nevertheless, a critical
question remains unanswered regarding DINOv2's adaptability to radiological
imaging, and the clarity on whether its features are sufficiently general to
benefit radiology image analysis is yet to be established. Therefore, this
study comprehensively evaluates DINOv2 for radiology, conducting over 100
experiments across diverse modalities (X-ray, CT, and MRI). Tasks include
disease classification and organ segmentation on both 2D and 3D images,
evaluated under different settings like kNN, few-shot learning, linear-probing,
end-to-end fine-tuning, and parameter-efficient fine-tuning, to measure the
effectiveness and generalizability of the DINOv2 feature embeddings.
Comparative analyses with established medical image analysis models, U-Net and
TransUnet for segmentation, and CNN and ViT models pre-trained via supervised,
weakly supervised, and self-supervised learning for classification, reveal
DINOv2's superior performance in segmentation tasks and competitive results in
disease classification. The findings contribute insights to potential avenues
for optimizing pre-training strategies for medical imaging and enhancing the
broader understanding of DINOv2's role in bridging the gap between natural and
radiological image analysis.
- Abstract(参考訳): 深層学習システムの医療分野への統合は、データアノテーションの資源集約的なプロセスと、これらのシステムが様々なデータ分布に一般化できないことによって妨げられている。
大規模なデータセットで事前トレーニングされたモデルである基盤モデルは、注釈付きデータへの依存を減らし、モデルの一般化性と堅牢性を高めるソリューションとして登場した。
オープンソースのファウンデーションモデルであるDINOv2は、1億4200万のキュレートされた自然画像に対する自己教師型学習を事前訓練した。
それでも、DINOv2の放射線画像への適応性について重要な疑問が残ることはなく、その特徴が放射線画像解析に有効であるかどうかについては、まだ明らかになっていない。
そこで本研究では,放射線学におけるDINOv2を総合的に評価し,X線,CT,MRIなど多種多様な実験を100以上行った。
課題には、DINOv2特徴埋め込みの有効性と一般化性を測定するために、2D画像と3D画像の両方の臓器の分類、kNN、少数ショット学習、線形プロービング、エンドツーエンドの微調整、パラメータ効率の良い微調整などの異なる設定で評価される。
セグメンテーションのための医用画像解析モデル、U-NetとTransUnet、セグメンテーションのためのCNNとViTモデルとの比較分析により、セグメンテーションタスクにおけるDINOv2の優れたパフォーマンスと疾患分類の競争結果が明らかとなった。
本研究は,DINOv2が自然画像解析と放射線画像解析のギャップを埋める上で果たす役割について,医療画像のトレーニング前戦略を最適化し,より広範に理解するための潜在的手段への洞察に寄与する。
関連論文リスト
- Abnormality-Driven Representation Learning for Radiology Imaging [0.8321462983924758]
病変強調型コントラスト学習(LeCL)は,CTスキャンの異なる部位にわたる2次元軸方向スライスにおける異常により引き起こされる視覚的表現を得るための新しい手法である。
本研究は, 腫瘍病変位置, 肺疾患検出, 患者ステージングの3つの臨床的課題に対するアプローチを, 最先端の4つの基礎モデルと比較した。
論文 参考訳(メタデータ) (2024-11-25T13:53:26Z) - Assessing the Performance of the DINOv2 Self-supervised Learning Vision Transformer Model for the Segmentation of the Left Atrium from MRI Images [1.2499537119440245]
DINOv2は、MRIを用いたLAセグメンテーションのための自然画像に基づいて訓練された自己教師型学習視覚変換器である。
我々は、Diceスコアが.871で、Jaccard Indexが.792で、エンドツーエンドの微調整が可能な、正確で一貫したセグメンテーションを提供する能力を示す。
これらの結果は、DINOv2がMRIに限られたデータで効果的に適応し、セグメンテーションの競争ツールとしての可能性を強調し、医療画像の幅広い利用を促進することを示唆している。
論文 参考訳(メタデータ) (2024-11-14T17:15:51Z) - Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning [49.197385954021456]
臨床実践では、2次元磁気共鳴(MR)シーケンスが広く採用されている。個々の2次元スライスを積み重ねて3次元ボリュームを形成できるが、比較的大きなスライスススペーシングは可視化とその後の解析タスクに課題をもたらす可能性がある。
スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。
現在のほとんどのソリューションは、教師付きトレーニングのために、かなりの数の高解像度と低解像度の画像を必要とするが、通常は現実のシナリオでは利用できない。
論文 参考訳(メタデータ) (2024-06-10T02:20:26Z) - Comparative Analysis of ImageNet Pre-Trained Deep Learning Models and
DINOv2 in Medical Imaging Classification [7.205610366609243]
本稿では,脳MRIデータの3つの臨床的モダリティを用いたグリオーマグレーディングタスクを行った。
我々は、ImageNetやDINOv2をベースとした様々な事前学習深層学習モデルの性能を比較した。
臨床データでは,DINOv2 はImageNet ベースで事前訓練したモデルほど優れていなかった。
論文 参考訳(メタデータ) (2024-02-12T11:49:08Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - ROCT-Net: A new ensemble deep convolutional model with improved spatial
resolution learning for detecting common diseases from retinal OCT images [0.0]
本稿では,OCT画像から網膜疾患を検出するために,新たな深層アンサンブル畳み込みニューラルネットワークを提案する。
本モデルは,2つの頑健な畳み込みモデルの学習アーキテクチャを用いて,リッチかつマルチレゾリューションな特徴を生成する。
2つのデータセットに関する実験と、他のよく知られた深層畳み込みニューラルネットワークとの比較により、アーキテクチャが分類精度を最大5%向上できることが証明された。
論文 参考訳(メタデータ) (2022-03-03T17:51:01Z) - InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal
Artifact Reduction in CT Images [53.4351366246531]
InDuDoNet+と呼ばれる新しい解釈可能な二重ドメインネットワークを構築し、CT画像の微細な埋め込みを行う。
異なる組織間のCT値を分析し,InDuDoNet+の事前観測ネットワークにマージすることで,その一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-23T15:52:37Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Generalization of Deep Convolutional Neural Networks -- A Case-study on
Open-source Chest Radiographs [2.934426478974089]
主要な課題の1つは、内部データと外部データの両方で顕著なパフォーマンスを持つDCNNモデルを考案することである。
我々は、DCNNが新しいデータに一般化しないかもしれないが、トレーニングデータの質と不均一性を高めることは、一般化率を改善するのに役立つことを示した。
論文 参考訳(メタデータ) (2020-07-11T14:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。