論文の概要: Dino U-Net: Exploiting High-Fidelity Dense Features from Foundation Models for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2508.20909v1
- Date: Thu, 28 Aug 2025 15:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.485269
- Title: Dino U-Net: Exploiting High-Fidelity Dense Features from Foundation Models for Medical Image Segmentation
- Title(参考訳): Dino U-Net: 医用画像セグメンテーションの基礎モデルから高忠実度特徴を爆発させる
- Authors: Yifan Gao, Haoyue Li, Feng Yuan, Xiaosong Wang, Xin Gao,
- Abstract要約: 大規模自然画像データセットで事前訓練された基礎モデルは、医用画像セグメンテーションの強力なパラダイムを提供する。
本稿では,DINOv3ビジョン基盤モデルの高忠実度特徴を利用した新しいエンコーダデコーダアーキテクチャであるDino U-Netを提案する。
我々のフレームワークは、バックボーンモデルのサイズが大きくなるにつれて、セグメンテーションの精度が一貫して向上し、非常にスケーラブルであることが証明されている。
- 参考スコア(独自算出の注目度): 14.779873398321564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models pre-trained on large-scale natural image datasets offer a powerful paradigm for medical image segmentation. However, effectively transferring their learned representations for precise clinical applications remains a challenge. In this work, we propose Dino U-Net, a novel encoder-decoder architecture designed to exploit the high-fidelity dense features of the DINOv3 vision foundation model. Our architecture introduces an encoder built upon a frozen DINOv3 backbone, which employs a specialized adapter to fuse the model's rich semantic features with low-level spatial details. To preserve the quality of these representations during dimensionality reduction, we design a new fidelity-aware projection module (FAPM) that effectively refines and projects the features for the decoder. We conducted extensive experiments on seven diverse public medical image segmentation datasets. Our results show that Dino U-Net achieves state-of-the-art performance, consistently outperforming previous methods across various imaging modalities. Our framework proves to be highly scalable, with segmentation accuracy consistently improving as the backbone model size increases up to the 7-billion-parameter variant. The findings demonstrate that leveraging the superior, dense-pretrained features from a general-purpose foundation model provides a highly effective and parameter-efficient approach to advance the accuracy of medical image segmentation. The code is available at https://github.com/yifangao112/DinoUNet.
- Abstract(参考訳): 大規模な自然画像データセットで事前訓練された基礎モデルは、医用画像セグメンテーションの強力なパラダイムを提供する。
しかし、正確な臨床応用のために学習した表現を効果的に転送することは依然として困難である。
本研究では,DINOv3ビジョンファウンデーションモデルの高忠実度特徴を利用した新しいエンコーダデコーダアーキテクチャであるDino U-Netを提案する。
我々のアーキテクチャでは,凍結したDINOv3バックボーン上に構築されたエンコーダを導入している。
次元減少時の表現の質を維持するため,デコーダの特徴を効果的に洗練・投影するFAPM (fidelity-aware projection module) を設計する。
7種類の医用画像セグメンテーションデータセットについて広範な実験を行った。
以上の結果から,Dino U-Netは最先端の性能を実現し,様々な画像モダリティにおいて従来手法よりも一貫して優れていたことが示唆された。
我々のフレームワークは、バックボーンモデルのサイズが7ビリオンパラメータの変量まで大きくなるにつれて、セグメンテーションの精度が一貫して向上し、非常にスケーラブルであることが証明されている。
以上の結果から, 汎用基盤モデルから高機能で高密度に予測された特徴を活用することにより, 医用画像分割の精度を高めるための, 極めて効果的かつパラメータ効率の高いアプローチが得られた。
コードはhttps://github.com/yifangao112/DinoUNetで公開されている。
関連論文リスト
- DINOv3 [62.31809406012177]
自己教師型学習は、手動データアノテーションの必要性を排除し、巨大なデータセットやより大きなアーキテクチャにモデルを集中的にスケールできるようにするという約束を守ります。
この技術レポートでは、シンプルだが効果的な戦略を活用することで、このビジョンを実現するための大きなマイルストーンであるDINOv3を紹介します。
DINOv3は高品位な高精細な特徴を生み出し、様々な視覚タスクにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-08-13T18:00:55Z) - Evaluating Pre-trained Convolutional Neural Networks and Foundation Models as Feature Extractors for Content-based Medical Image Retrieval [0.37478492878307323]
コンテンツベースの医用画像検索(CBMIR)は、画像の特徴に依存し、自動または半自動で抽出できる。
本研究では、よく知られた学習済み畳み込みニューラルネットワーク(CNN)と事前学習済み基礎モデルから、事前学習済み特徴抽出器を複数使用した。
以上の結果から,2次元データセットでは,基礎モデルの方がCNNよりも優れた性能が得られることがわかった。
画像サイズが大きくなると(特に2次元データセットの場合)性能が若干向上する一方、より小さい画像でも競争力のあるCBMIR性能が達成できることを確認した。
論文 参考訳(メタデータ) (2024-09-14T13:07:30Z) - Few-Shot Medical Image Segmentation with High-Fidelity Prototypes [38.073371773707514]
本稿では,オブジェクトフォアグラウンドと背景を包括的に表現する高忠実度プロトタイプを構築するための,DSPNet(Detail Self-Refined Prototype Network)を提案する。
得られた詳細セマンティクスを維持しつつグローバルなセマンティクスを構築するために,マルチモーダル構造をクラスタリングでモデル化し,それぞれをチャネル的に融合させることにより,前景のプロトタイプを学習する。
論文 参考訳(メタデータ) (2024-06-26T05:06:14Z) - Self-Prompting Large Vision Models for Few-Shot Medical Image
Segmentation [14.135249795318591]
本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。
我々は、Segment Anything Modelの埋め込み空間を利用して、単純だが効果的な線形ピクセルワイド分類器を通して自身を誘導する。
複数のデータセットで競合する結果を得る。
論文 参考訳(メタデータ) (2023-08-15T08:20:07Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T17:38:39Z) - Hierarchical Amortized Training for Memory-efficient High Resolution 3D
GAN [52.851990439671475]
本稿では,高解像度な3D画像を生成することができる新しいエンドツーエンドGANアーキテクチャを提案する。
トレーニングと推論の異なる構成を使用することで、この目標を達成する。
3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2020-08-05T02:33:04Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。