論文の概要: SegDINO: An Efficient Design for Medical and Natural Image Segmentation with DINO-V3
- arxiv url: http://arxiv.org/abs/2509.00833v1
- Date: Sun, 31 Aug 2025 13:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.419403
- Title: SegDINO: An Efficient Design for Medical and Natural Image Segmentation with DINO-V3
- Title(参考訳): SegDino:DINO-V3による医療・自然画像分割の効率的な設計
- Authors: Sicheng Yang, Hongqiu Wang, Zhaohu Xing, Sixiang Chen, Lei Zhu,
- Abstract要約: SegDINOは、凍結したDINOv3バックボーンと軽量デコーダを結合する効率的なセグメンテーションフレームワークである。
SegDINOは、既存の方法と比較して、最先端のパフォーマンスを一貫して達成している。
- 参考スコア(独自算出の注目度): 26.828325356769437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The DINO family of self-supervised vision models has shown remarkable transferability, yet effectively adapting their representations for segmentation remains challenging. Existing approaches often rely on heavy decoders with multi-scale fusion or complex upsampling, which introduce substantial parameter overhead and computational cost. In this work, we propose SegDINO, an efficient segmentation framework that couples a frozen DINOv3 backbone with a lightweight decoder. SegDINO extracts multi-level features from the pretrained encoder, aligns them to a common resolution and channel width, and utilizes a lightweight MLP head to directly predict segmentation masks. This design minimizes trainable parameters while preserving the representational power of foundation features. Extensive experiments across six benchmarks, including three medical datasets (TN3K, Kvasir-SEG, ISIC) and three natural image datasets (MSD, VMD-D, ViSha), demonstrate that SegDINO consistently achieves state-of-the-art performance compared to existing methods. Code is available at https://github.com/script-Yang/SegDINO.
- Abstract(参考訳): 自己監督型視覚モデルのDINOファミリーは、顕著な伝達性を示しているが、セグメンテーションの表現を効果的に適応することは依然として困難である。
既存のアプローチは、しばしばマルチスケールの融合や複雑なアップサンプリングを伴う重いデコーダに依存しており、かなりのパラメータのオーバーヘッドと計算コストが伴う。
本研究では,凍結したDINOv3バックボーンと軽量デコーダを結合した効率的なセグメンテーションフレームワークであるSegDINOを提案する。
SegDINOは、事前訓練されたエンコーダからマルチレベル特徴を抽出し、それらを共通の解像度とチャネル幅に整列し、軽量のMLPヘッドを使用してセグメント化マスクを直接予測する。
この設計は、基礎的特徴の表現力を維持しながら、訓練可能なパラメータを最小限にする。
3つの医学データセット(TN3K、Kvasir-SEG、ISIC)と3つの自然画像データセット(MSD、VMD-D、ViSha)を含む6つのベンチマークにわたる大規模な実験は、SegDINOが既存の方法と比較して一貫して最先端のパフォーマンスを達成することを示した。
コードはhttps://github.com/script-Yang/SegDINOで入手できる。
関連論文リスト
- econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - Optimizing Medical Image Segmentation with Advanced Decoder Design [0.8402155549849591]
U-Netは、シンプルで柔軟なアーキテクチャ設計のため、医用画像のセグメンテーションで広く使われている。
提案するSwin DER(Swin UNETR Decoder Enhanced and Refined)は,これらの3つのコンポーネントの設計を最適化する。
我々のモデル設計は、SynapseとMSDの脳腫瘍セグメント化タスクの両方において、最先端の手法を超越して優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-05T11:47:13Z) - SegFormer3D: an Efficient Transformer for 3D Medical Image Segmentation [0.13654846342364302]
マルチスケールボリューム機能にまたがる注目度を算出する階層変換器であるSegFormer3Dを提案する。
SegFormer3Dは複雑なデコーダを避け、全MLPデコーダを使用して、ローカルおよびグローバルなアテンション機能を集約する。
広く使われている3つのデータセット上で、現在のSOTAモデルに対してSegFormer3Dをベンチマークする。
論文 参考訳(メタデータ) (2024-04-15T22:12:05Z) - SwIPE: Efficient and Robust Medical Image Segmentation with Implicit Patch Embeddings [12.79344668998054]
正確な局所境界線とグローバルな形状コヒーレンスを実現するために,SwIPE(Segmentation with Implicit Patch Embeddings)を提案する。
その結果,最近の暗黙的アプローチよりもSwIPEは大幅に改善され,パラメータが10倍以上の最先端の離散手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-23T20:55:11Z) - SegViTv2: Exploring Efficient and Continual Semantic Segmentation with
Plain Vision Transformers [76.13755422671822]
本稿では,エンコーダ・デコーダ・フレームワークを用いた意味的セグメンテーションのためのプレーンビジョン変換器(ViT)の能力について検討する。
Intention-to-Mask(atm)モジュールを導入し、平易なViTに有効な軽量デコーダを設計する。
我々のデコーダは、様々なViTバックボーンを使用して人気のあるデコーダUPerNetより優れ、計算コストの5%程度しか消費しない。
論文 参考訳(メタデータ) (2023-06-09T22:29:56Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。