論文の概要: MedDINOv3: How to adapt vision foundation models for medical image segmentation?
- arxiv url: http://arxiv.org/abs/2509.02379v2
- Date: Wed, 03 Sep 2025 03:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.069096
- Title: MedDINOv3: How to adapt vision foundation models for medical image segmentation?
- Title(参考訳): MedDINOv3: 医用画像セグメンテーションに視覚基盤モデルを適用するには?
- Authors: Yuheng Li, Yizhou Wu, Yuxiang Lai, Mingzhe Hu, Xiaofeng Yang,
- Abstract要約: 我々はDINOv3を医用セグメンテーションに適応するためのシンプルで効果的なフレームワークであるMedDINOv3を紹介した。
我々は,多段階DINOv3レシピを用いて3.87M軸CTスライスをキュレートしたCT-3Mを用いて,ドメイン適応型プレトレーニングを行う。
MedDINOv3は4つのセグメンテーションベンチマークで最先端のパフォーマンスにマッチする。
- 参考スコア(独自算出の注目度): 16.256590269050367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate segmentation of organs and tumors in CT and MRI scans is essential for diagnosis, treatment planning, and disease monitoring. While deep learning has advanced automated segmentation, most models remain task-specific, lacking generalizability across modalities and institutions. Vision foundation models (FMs) pretrained on billion-scale natural images offer powerful and transferable representations. However, adapting them to medical imaging faces two key challenges: (1) the ViT backbone of most foundation models still underperform specialized CNNs on medical image segmentation, and (2) the large domain gap between natural and medical images limits transferability. We introduce MedDINOv3, a simple and effective framework for adapting DINOv3 to medical segmentation. We first revisit plain ViTs and design a simple and effective architecture with multi-scale token aggregation. Then, we perform domain-adaptive pretraining on CT-3M, a curated collection of 3.87M axial CT slices, using a multi-stage DINOv3 recipe to learn robust dense features. MedDINOv3 matches or exceeds state-of-the-art performance across four segmentation benchmarks, demonstrating the potential of vision foundation models as unified backbones for medical image segmentation. The code is available at https://github.com/ricklisz/MedDINOv3.
- Abstract(参考訳): CTおよびMRIスキャンにおける臓器と腫瘍の正確なセグメンテーションは、診断、治療計画、疾患モニタリングに不可欠である。
ディープラーニングには高度な自動セグメンテーションがあるが、ほとんどのモデルはタスク固有であり、モダリティや機関の一般化性に欠ける。
数十億の自然画像に事前訓練されたビジョン基礎モデル(FM)は、強力で伝達可能な表現を提供する。
しかし, 医用画像への適応には, 1) 基礎モデルのViTバックボーンは, 医用画像のセグメンテーションにおいて, 特別なCNNよりも優れており, (2) 自然画像と医用画像の領域ギャップが大きいため, 転送性が制限されている。
我々はDINOv3を医用セグメンテーションに適応するためのシンプルで効果的なフレームワークであるMedDINOv3を紹介した。
まず、平易なViTを再検討し、マルチスケールトークンアグリゲーションを備えたシンプルで効果的なアーキテクチャを設計する。
次に,多段階のDINOv3レシピを用いて3.87M軸CTスライスをキュレートしたCT-3Mのドメイン適応プレトレーニングを行い,強靭な高密度な特徴を学習した。
MedDINOv3は4つのセグメンテーションベンチマークで最先端のパフォーマンスにマッチまたは超え、医用画像セグメンテーションの統一バックボーンとしてビジョン基盤モデルの可能性を実証している。
コードはhttps://github.com/ricklisz/MedDINOv3.comで入手できる。
関連論文リスト
- ShapeMamba-EM: Fine-Tuning Foundation Model with Local Shape Descriptors and Mamba Blocks for 3D EM Image Segmentation [49.42525661521625]
本稿では3次元EMセグメンテーションのための特殊微調整法であるShapeMamba-EMを提案する。
5つのセグメンテーションタスクと10のデータセットをカバーする、幅広いEMイメージでテストされている。
論文 参考訳(メタデータ) (2024-08-26T08:59:22Z) - Promise:Prompt-driven 3D Medical Image Segmentation Using Pretrained
Image Foundation Models [13.08275555017179]
単点プロンプトのみを用いたプロンプト駆動型3次元医用画像分割モデルProMISeを提案する。
今回,大腸癌と膵腫瘍の2つの領域に分布する2つのパブリックデータセットについて検討した。
論文 参考訳(メタデータ) (2023-10-30T16:49:03Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation [52.699139151447945]
医用画像の領域分割を行うために, SAMを2次元から3次元に変換する新しい適応法を提案する。
本モデルでは, 腎腫瘍, 膵腫瘍, 大腸癌の3つのタスクのうち8.25%, 29.87%, 10.11%の3つのタスクにおいて, ドメイン・オブ・ザ・アーティヴ・メディカル・イメージ・セグメンテーション・モデルより優れ, 肝腫瘍セグメンテーションでも同様の性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T12:09:52Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。