Fugu-MT 論文翻訳(概要): Towards General Purpose Vision Foundation Models for Medical Image Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks

論文の概要: Towards General Purpose Vision Foundation Models for Medical Image Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks

arxiv url: http://arxiv.org/abs/2312.02366v2
Date: Thu, 7 Dec 2023 19:58:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-11 17:55:34.119310
Title: Towards General Purpose Vision Foundation Models for Medical Image Analysis: An Experimental Study of DINOv2 on Radiology Benchmarks
Title（参考訳）: 医用画像解析のための汎用視覚基盤モデルに向けて--ラジオロジーベンチマークによるdinov2の実験的検討
Authors: Mohammed Baharoon, Waseem Qureshi, Jiahong Ouyang, Yanwu Xu, Abdulrhman Aljouie, Wei Peng
Abstract要約: DINOv2は、1億4200万のキュレートされた自然画像に対する自己教師型学習を事前訓練したオープンソースの基礎モデルで、汎用的な視覚表現の抽出に優れています。本研究は放射線学におけるDINOv2を総合的に評価し,多種多様な実験を行った。
参考スコア（独自算出の注目度）: 6.2454947749350165
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The integration of deep learning systems into the medical domain has been hindered by the resource-intensive process of data annotation and the inability of these systems to generalize to different data distributions. Foundation models, which are models pre-trained on large datasets, have emerged as a solution to reduce reliance on annotated data and enhance model generalizability and robustness. DINOv2, an open-source foundation model pre-trained with self-supervised learning on 142 million curated natural images, excels in extracting general-purpose visual representations, exhibiting promising capabilities across various vision tasks. Nevertheless, a critical question remains unanswered regarding DINOv2's adaptability to radiological imaging, and the clarity on whether its features are sufficiently general to benefit radiology image analysis is yet to be established. Therefore, this study comprehensively evaluates DINOv2 for radiology, conducting over 100 experiments across diverse modalities (X-ray, CT, and MRI). Tasks include disease classification and organ segmentation on both 2D and 3D images, evaluated under different settings like kNN, few-shot learning, linear-probing, end-to-end fine-tuning, and parameter-efficient fine-tuning, to measure the effectiveness and generalizability of the DINOv2 feature embeddings. Comparative analyses with established medical image analysis models, U-Net and TransUnet for segmentation, and CNN and ViT models pre-trained via supervised, weakly supervised, and self-supervised learning for classification, reveal DINOv2's superior performance in segmentation tasks and competitive results in disease classification. The findings contribute insights to potential avenues for optimizing pre-training strategies for medical imaging and enhancing the broader understanding of DINOv2's role in bridging the gap between natural and radiological image analysis.
Abstract（参考訳）: 深層学習システムの医療分野への統合は、データアノテーションの資源集約的なプロセスと、これらのシステムが様々なデータ分布に一般化できないことによって妨げられている。大規模なデータセットで事前トレーニングされたモデルである基盤モデルは、注釈付きデータへの依存を減らし、モデルの一般化性と堅牢性を高めるソリューションとして登場した。オープンソースのファウンデーションモデルであるDINOv2は、1億4200万のキュレートされた自然画像に対する自己教師型学習を事前訓練した。それでも、DINOv2の放射線画像への適応性について重要な疑問が残ることはなく、その特徴が放射線画像解析に有効であるかどうかについては、まだ明らかになっていない。そこで本研究では,放射線学におけるDINOv2を総合的に評価し,X線,CT,MRIなど多種多様な実験を100以上行った。課題には、DINOv2特徴埋め込みの有効性と一般化性を測定するために、2D画像と3D画像の両方の臓器の分類、kNN、少数ショット学習、線形プロービング、エンドツーエンドの微調整、パラメータ効率の良い微調整などの異なる設定で評価される。セグメンテーションのための医用画像解析モデル、U-NetとTransUnet、セグメンテーションのためのCNNとViTモデルとの比較分析により、セグメンテーションタスクにおけるDINOv2の優れたパフォーマンスと疾患分類の競争結果が明らかとなった。本研究は,DINOv2が自然画像解析と放射線画像解析のギャップを埋める上で果たす役割について,医療画像のトレーニング前戦略を最適化し,より広範に理解するための潜在的手段への洞察に寄与する。

関連論文リスト

MM-DINOv2: Adapting Foundation Models for Multi-Modal Medical Image Analysis [19.063517827476826]
MM-DINOv2(MM-DINOv2)は,マルチモーダル・メディカル・イメージングのための事前学習型視覚基盤モデルDINOv2に適応する新しいフレームワークである。本手法では,マルチモーダル・パッチの埋め込みを取り入れ,視覚基盤モデルによりマルチモーダル・イメージングデータを効果的に処理することができる。本手法は外部テストセットで0.6のマシューズ相関係数(MCC)を達成し、最先端の教師付きアプローチを+11.1%超える。
論文参考訳（メタデータ） (2025-09-08T12:34:15Z)
Generalist versus Specialist Vision Foundation Models for Ocular Disease and Oculomics [10.703307148153433]
網膜画像応用におけるDINOv2とDINOv3の適応性の評価を行った。 RETFound-DINOv2は、これらの一般的な基礎モデルにおいて、眼球運動の検出と眼球運動において一貫して優れる。
論文参考訳（メタデータ） (2025-09-03T15:48:57Z)
Quality Assessment and Distortion-aware Saliency Prediction for AI-Generated Omnidirectional Images [70.49595920462579]
本研究は,AIGODIの品質評価と歪みを考慮したサリエンシ予測問題について検討する。 BLIP-2モデルに基づく共有エンコーダを用いた2つのモデルを提案する。
論文参考訳（メタデータ） (2025-06-27T05:36:04Z)
Comparative Evaluation of Radiomics and Deep Learning Models for Disease Detection in Chest Radiography [0.0]
本研究は,胸部X線撮影における疾患検出のための放射線治療と深層学習によるアプローチの包括的評価である。新型コロナウイルス、肺不透明症、ウイルス性肺炎に焦点が当てられている。臨床実習におけるAI駆動診断ツールの統合について報告する。
論文参考訳（メタデータ） (2025-04-16T16:54:37Z)
Abnormality-Driven Representation Learning for Radiology Imaging [0.8321462983924758]
病変強調型コントラスト学習(LeCL)は,CTスキャンの異なる部位にわたる2次元軸方向スライスにおける異常により引き起こされる視覚的表現を得るための新しい手法である。本研究は, 腫瘍病変位置, 肺疾患検出, 患者ステージングの3つの臨床的課題に対するアプローチを, 最先端の4つの基礎モデルと比較した。
論文参考訳（メタデータ） (2024-11-25T13:53:26Z)
Assessing the Performance of the DINOv2 Self-supervised Learning Vision Transformer Model for the Segmentation of the Left Atrium from MRI Images [1.2499537119440245]
DINOv2は、MRIを用いたLAセグメンテーションのための自然画像に基づいて訓練された自己教師型学習視覚変換器である。我々は、Diceスコアが.871で、Jaccard Indexが.792で、エンドツーエンドの微調整が可能な、正確で一貫したセグメンテーションを提供する能力を示す。これらの結果は、DINOv2がMRIに限られたデータで効果的に適応し、セグメンテーションの競争ツールとしての可能性を強調し、医療画像の幅広い利用を促進することを示唆している。
論文参考訳（メタデータ） (2024-11-14T17:15:51Z)
Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning [49.197385954021456]
臨床実践では、2次元磁気共鳴(MR)シーケンスが広く採用されている。個々の2次元スライスを積み重ねて3次元ボリュームを形成できるが、比較的大きなスライスススペーシングは可視化とその後の解析タスクに課題をもたらす可能性がある。スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。現在のほとんどのソリューションは、教師付きトレーニングのために、かなりの数の高解像度と低解像度の画像を必要とするが、通常は現実のシナリオでは利用できない。
論文参考訳（メタデータ） (2024-06-10T02:20:26Z)
Comparative Analysis of ImageNet Pre-Trained Deep Learning Models and DINOv2 in Medical Imaging Classification [7.205610366609243]
本稿では,脳MRIデータの3つの臨床的モダリティを用いたグリオーマグレーディングタスクを行った。我々は、ImageNetやDINOv2をベースとした様々な事前学習深層学習モデルの性能を比較した。臨床データでは,DINOv2 はImageNet ベースで事前訓練したモデルほど優れていなかった。
論文参考訳（メタデータ） (2024-02-12T11:49:08Z)
Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文参考訳（メタデータ） (2023-07-13T08:27:09Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
ROCT-Net: A new ensemble deep convolutional model with improved spatial resolution learning for detecting common diseases from retinal OCT images [0.0]
本稿では,OCT画像から網膜疾患を検出するために,新たな深層アンサンブル畳み込みニューラルネットワークを提案する。本モデルは,2つの頑健な畳み込みモデルの学習アーキテクチャを用いて,リッチかつマルチレゾリューションな特徴を生成する。 2つのデータセットに関する実験と、他のよく知られた深層畳み込みニューラルネットワークとの比較により、アーキテクチャが分類精度を最大5%向上できることが証明された。
論文参考訳（メタデータ） (2022-03-03T17:51:01Z)
InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal Artifact Reduction in CT Images [53.4351366246531]
InDuDoNet+と呼ばれる新しい解釈可能な二重ドメインネットワークを構築し、CT画像の微細な埋め込みを行う。異なる組織間のCT値を分析し,InDuDoNet+の事前観測ネットワークにマージすることで,その一般化性能を著しく向上させる。
論文参考訳（メタデータ） (2021-12-23T15:52:37Z)
MIMO: Mutual Integration of Patient Journey and Medical Ontology for Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文参考訳（メタデータ） (2021-07-20T07:04:52Z)
Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文参考訳（メタデータ） (2021-02-26T02:29:30Z)
Generalization of Deep Convolutional Neural Networks -- A Case-study on Open-source Chest Radiographs [2.934426478974089]
主要な課題の1つは、内部データと外部データの両方で顕著なパフォーマンスを持つDCNNモデルを考案することである。我々は、DCNNが新しいデータに一般化しないかもしれないが、トレーニングデータの質と不均一性を高めることは、一般化率を改善するのに役立つことを示した。
論文参考訳（メタデータ） (2020-07-11T14:37:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。