論文の概要: Exploiting DINOv3-Based Self-Supervised Features for Robust Few-Shot Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2601.08078v1
- Date: Mon, 12 Jan 2026 23:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.982646
- Title: Exploiting DINOv3-Based Self-Supervised Features for Robust Few-Shot Medical Image Segmentation
- Title(参考訳): DINOv3をベースとしたロバストフルショット医用画像分割のためのセルフ・スーパービジョン機能の検討
- Authors: Guoping Xu, Jayaram K. Udupa, Weiguo Lu, You Zhang,
- Abstract要約: 本稿では,DINOv3機能を活用した新しいフレームワークであるDINO-AugSegを提案する。
MRI、CT、超音波、内視鏡、皮膚内視鏡を含む5つの画像モダリティにまたがる6つの公開ベンチマークの実験は、DINO-AugSegが既存の手法を一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 3.2564581758935094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based automatic medical image segmentation plays a critical role in clinical diagnosis and treatment planning but remains challenging in few-shot scenarios due to the scarcity of annotated training data. Recently, self-supervised foundation models such as DINOv3, which were trained on large natural image datasets, have shown strong potential for dense feature extraction that can help with the few-shot learning challenge. Yet, their direct application to medical images is hindered by domain differences. In this work, we propose DINO-AugSeg, a novel framework that leverages DINOv3 features to address the few-shot medical image segmentation challenge. Specifically, we introduce WT-Aug, a wavelet-based feature-level augmentation module that enriches the diversity of DINOv3-extracted features by perturbing frequency components, and CG-Fuse, a contextual information-guided fusion module that exploits cross-attention to integrate semantic-rich low-resolution features with spatially detailed high-resolution features. Extensive experiments on six public benchmarks spanning five imaging modalities, including MRI, CT, ultrasound, endoscopy, and dermoscopy, demonstrate that DINO-AugSeg consistently outperforms existing methods under limited-sample conditions. The results highlight the effectiveness of incorporating wavelet-domain augmentation and contextual fusion for robust feature representation, suggesting DINO-AugSeg as a promising direction for advancing few-shot medical image segmentation. Code and data will be made available on https://github.com/apple1986/DINO-AugSeg.
- Abstract(参考訳): 深層学習に基づく自動医用画像セグメンテーションは臨床診断や治療計画において重要な役割を担っているが、注釈付きトレーニングデータの不足のため、いくつかのシナリオでは依然として困難である。
近年、大規模な自然画像データセットに基づいて訓練されたDINOv3のような自己教師型基礎モデルが、数発の学習課題に役立てられるような、高密度な特徴抽出の強い可能性を示している。
しかし, 医用画像への直接適用は, 領域差によって妨げられている。
本研究では,DINOv3機能を活用する新しいフレームワークであるDINO-AugSegを提案する。
具体的には、周波数成分の摂動によりDINOv3抽出特徴の多様性を向上するウェーブレットベースの特徴レベル拡張モジュールWT-Augと、空間的に詳細な高分解能特徴とセマンティックリッチ低分解能特徴を統合するためのコンテキスト情報誘導融合モジュールCG-Fuseを紹介する。
MRI、CT、超音波、内視鏡、皮膚内視鏡を含む5つの画像モダリティにまたがる6つの公開ベンチマークの大規模な実験は、DINO-AugSegが限られたサンプル条件下で既存の方法より一貫して優れていることを示した。
その結果,ウェーブレット領域拡張とコンテキスト融合による堅牢な特徴表現の有効性が強調され,DINO-AugSegが医療画像の領域分割を前進させる有望な方向であることが示唆された。
コードとデータはhttps://github.com/apple 1986/DINO-AugSegで公開される。
関連論文リスト
- Does DINOv3 Set a New Medical Vision Standard? [67.33543059306938]
本報告は、DINOv3が、ドメイン固有の事前トレーニングなしで、医用視覚タスクのための強力な統合エンコーダとして機能するかどうかを考察する。
我々はDINOv3を2D/3D分類やセグメンテーションを含む一般的な医療ビジョンタスクでベンチマークした。
注目すべきは、いくつかのタスクでBiomedCLIPやCT-Netといった医療固有の基礎モデルよりも優れていることだ。
論文 参考訳(メタデータ) (2025-09-08T09:28:57Z) - MedDINOv3: How to adapt vision foundation models for medical image segmentation? [16.256590269050367]
我々はDINOv3を医用セグメンテーションに適応するためのシンプルで効果的なフレームワークであるMedDINOv3を紹介した。
我々は,多段階DINOv3レシピを用いて3.87M軸CTスライスをキュレートしたCT-3Mを用いて,ドメイン適応型プレトレーニングを行う。
MedDINOv3は4つのセグメンテーションベンチマークで最先端のパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2025-09-02T14:44:43Z) - MedBridge: Bridging Foundation Vision-Language Models to Medical Image Diagnosis [10.082738539201804]
最近の視覚言語基盤モデルは、自然画像分類の最先端結果を提供するが、ドメインシフトによる医用画像に干渉する。
MedBridgeは,医用画像の正確な診断のためにトレーニング済みのVLMを再利用した,軽量なマルチモーダル適応フレームワークである。
MedBridgeはマルチラベル胸部疾患の診断において最先端のVLM適応法と比較して6~15%改善した。
論文 参考訳(メタデータ) (2025-05-27T19:37:51Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Discriminative Hamiltonian Variational Autoencoder for Accurate Tumor Segmentation in Data-Scarce Regimes [2.8498944632323755]
医用画像分割のためのエンドツーエンドハイブリッドアーキテクチャを提案する。
ハミルトン変分オートエンコーダ(HVAE)と識別正則化を用いて生成画像の品質を向上する。
我々のアーキテクチャはスライス・バイ・スライス・ベースで3Dボリュームを分割し、リッチな拡張データセットをカプセル化する。
論文 参考訳(メタデータ) (2024-06-17T15:42:08Z) - Enhancing Weakly Supervised 3D Medical Image Segmentation through Probabilistic-aware Learning [47.700298779672366]
3次元医用画像のセグメンテーションは、疾患の診断と治療計画に重要な意味を持つ課題である。
近年の深層学習の進歩は、完全に教師付き医療画像のセグメンテーションを著しく強化している。
本稿では,3次元医用画像に特化して設計された,確率的適応型弱教師付き学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-05T00:46:53Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MedSegDiff: Medical Image Segmentation with Diffusion Probabilistic
Model [8.910108260704964]
拡散モデル(DPM)は近年,コンピュータビジョンにおいて最もホットな話題の1つとなっている。
MedSegDiff と名付けた一般的な医用画像分割タスクに対する DPM ベースモデルを提案する。
実験の結果,MedSegDiff は最先端 (SOTA) 手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-01T17:24:44Z) - Cross-Modal Self-Attention Distillation for Prostate Cancer Segmentation [1.630747108038841]
マルチモーダル画像の特徴をより効率的に利用する方法は、医療画像セグメンテーションの分野ではまだ難しい問題である。
我々は, 中間層の符号化情報を異なるモードから完全に活用して, クロスモーダルな自己注意蒸留網を構築する。
生検にて358MRIで5倍のクロスバリデーションを施行した。
論文 参考訳(メタデータ) (2020-11-08T06:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。