論文の概要: From SAM to DINOv2: Towards Distilling Foundation Models to Lightweight Baselines for Generalized Polyp Segmentation
- arxiv url: http://arxiv.org/abs/2512.09307v1
- Date: Wed, 10 Dec 2025 04:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.391215
- Title: From SAM to DINOv2: Towards Distilling Foundation Models to Lightweight Baselines for Generalized Polyp Segmentation
- Title(参考訳): SAMからDINOv2へ:一般ポリプセグメンテーションのための蒸留基礎モデルから軽量ベースラインへ
- Authors: Shivanshu Agnihotri, Snehashis Majhi, Deepak Ranjan Nayak, Debesh Jha,
- Abstract要約: Polyp-DiFoMは、基礎モデルのリッチな表現を軽量なセグメンテーションベースラインに転送するフレームワークである。
ベースラインモデルと最先端モデルとを一貫して上回り、オーバーヘッドを約9倍削減した。
- 参考スコア(独自算出の注目度): 9.452022523459886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate polyp segmentation during colonoscopy is critical for the early detection of colorectal cancer and still remains challenging due to significant size, shape, and color variations, and the camouflaged nature of polyps. While lightweight baseline models such as U-Net, U-Net++, and PraNet offer advantages in terms of easy deployment and low computational cost, they struggle to deal with the above issues, leading to limited segmentation performance. In contrast, large-scale vision foundation models such as SAM, DINOv2, OneFormer, and Mask2Former have exhibited impressive generalization performance across natural image domains. However, their direct transfer to medical imaging tasks (e.g., colonoscopic polyp segmentation) is not straightforward, primarily due to the scarcity of large-scale datasets and lack of domain-specific knowledge. To bridge this gap, we propose a novel distillation framework, Polyp-DiFoM, that transfers the rich representations of foundation models into lightweight segmentation baselines, allowing efficient and accurate deployment in clinical settings. In particular, we infuse semantic priors from the foundation models into canonical architectures such as U-Net and U-Net++ and further perform frequency domain encoding for enhanced distillation, corroborating their generalization capability. Extensive experiments are performed across five benchmark datasets, such as Kvasir-SEG, CVC-ClinicDB, ETIS, ColonDB, and CVC-300. Notably, Polyp-DiFoM consistently outperforms respective baseline models significantly, as well as the state-of-the-art model, with nearly 9 times reduced computation overhead. The code is available at https://github.com/lostinrepo/PolypDiFoM.
- Abstract(参考訳): 大腸内視鏡検査における正確なポリープセグメンテーションは大腸癌の早期発見に不可欠であり, サイズ, 形状, 色の変化, ポリープのカモフラージュ性などにより, いまだに困難である。
U-Net、U-Net++、PraNetといった軽量のベースラインモデルでは、デプロイが容易で計算コストの低い点で利点があるが、上記の問題に対処するのに苦労し、セグメンテーションのパフォーマンスが制限された。
これとは対照的に、SAM、DINOv2、OneFormer、Mask2Formerといった大規模ビジョン基盤モデルは、自然画像領域にまたがる印象的な一般化性能を示した。
しかし、大規模なデータセットの不足とドメイン固有の知識の欠如により、医療画像タスク(例えば、大腸内視鏡的ポリープセグメンテーション)への直接移行は簡単ではない。
このギャップを埋めるために,基礎モデルの豊かな表現を軽量なセグメンテーションベースラインに変換し,臨床現場での効率よく正確な展開を可能にする新しい蒸留フレームワーク,Polyp-DiFoMを提案する。
特に,基礎モデルからU-NetやU-Net++のような標準アーキテクチャにセマンティックな先行概念を注入し,拡張蒸留のための周波数領域エンコーディングを行い,それらの一般化能力を裏付ける。
大規模な実験は、Kvasir-SEG、CVC-ClinicDB、ETIS、ColorDB、CVC-300といった5つのベンチマークデータセットで実施されている。
特に、Polyp-DiFoMは各ベースラインモデルと最先端モデルとを一貫して上回り、計算オーバーヘッドを約9倍削減した。
コードはhttps://github.com/lostinrepo/PolypDiFoMで公開されている。
関連論文リスト
- RPCANet++: Deep Interpretable Robust PCA for Sparse Object Segmentation [51.37553739930992]
RPCANet++は、RPCAの解釈可能性と効率的なディープアーキテクチャを融合したスパースオブジェクトセグメンテーションフレームワークである。
我々のアプローチは、緩やかなRPCAモデルを背景近似モジュール(BAM)、対象抽出モジュール(OEM)、画像復元モジュール(IRM)からなる構造化ネットワークに展開する。
さまざまなデータセットの実験では、RPCANet++がさまざまなイメージングシナリオの下で最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-08-06T08:19:37Z) - AI-Assisted Colonoscopy: Polyp Detection and Segmentation using Foundation Models [0.10037949839020764]
大腸内視鏡検査では、Deep Learningモデルの助けを借りて、欠落したポリープの80%を検出できた。
この課題に対処できるアルゴリズムの探索において、ファンデーションモデルは有望な候補として浮上する。
ゼロショットまたは少数ショットの学習機能により、広範囲の微調整なしに、新しいデータやタスクへの一般化が容易になる。
ポリプセグメンテーションの基礎モデルを総合的に評価し, 検出と分解の両面から評価した。
論文 参考訳(メタデータ) (2025-03-31T14:20:53Z) - SAM-Mamba: Mamba Guided SAM Architecture for Generalized Zero-Shot Polyp Segmentation [3.075778955462259]
大腸内視鏡検査におけるポリープセグメンテーションは大腸癌の検出に不可欠である。
畳み込みニューラルネットワーク(CNN)に基づく従来のセグメンテーションモデルは、詳細なパターンとグローバルなコンテキストを捉えるのに苦労している。
効率的なポリープセグメンテーションのためのMamba-guided Segment Anything Model (SAM-Mamba)を提案する。
論文 参考訳(メタデータ) (2024-12-11T15:47:54Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - ProMamba: Prompt-Mamba for polyp segmentation [12.008624337064521]
本稿では,最新のVision-Mambaとプロンプト技術を組み合わせた,Prompt-Mambaに基づくセグメンテーションモデルを提案する。
我々は、最初にビジョン・マンバアーキテクチャをポリプセグメンテーションに適用し、最初にポリプセグメンテーションモデルでプロンプト技術を利用する。
本モデルでは,6つのデータセットに対して,従来の最先端手法を平均5%上回るセグメンテーションタスクを効率的に達成する。
論文 参考訳(メタデータ) (2024-03-20T15:08:57Z) - ECC-PolypDet: Enhanced CenterNet with Contrastive Learning for Automatic
Polyp Detection [88.4359020192429]
既存の手法では、計算コストのかかるコンテキストアグリゲーションが伴うか、ポリープの事前モデリングが欠如しているため、難解なケースでは性能が低下する。
本稿では,2段階のトレーニングとエンドツーエンド推論フレームワークである Enhanced CenterNet with Contrastive Learning (ECC-PolypDet) を提案する。
Box-assisted Contrastive Learning (BCL) は, クラス内差を最小限に抑え, 前庭ポリープと背景のクラス間差を最大化するため, 隠れポリープを捕捉する。
微調整段階におけるIoU誘導サンプル再重み付けの導入
論文 参考訳(メタデータ) (2024-01-10T07:03:41Z) - Lesion-aware Dynamic Kernel for Polyp Segmentation [49.63274623103663]
ポリープセグメンテーションのための障害対応動的ネットワーク(LDNet)を提案する。
従来のU字型エンコーダ・デコーダ構造であり、動的カーネル生成と更新スキームが組み込まれている。
この単純だが効果的なスキームは、我々のモデルに強力なセグメンテーション性能と一般化能力を与える。
論文 参考訳(メタデータ) (2023-01-12T09:53:57Z) - BoxPolyp:Boost Generalized Polyp Segmentation Using Extra Coarse
Bounding Box Annotations [79.17754846553866]
我々は、正確なマスクと余分な粗いボックスアノテーションをフル活用するための強化されたBoxPolypモデルを提案する。
実際には、従来のポリプセグメンテーションモデルの過度に適合する問題を緩和するためにボックスアノテーションが適用される。
提案手法は従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-12-07T07:45:50Z) - PraNet: Parallel Reverse Attention Network for Polyp Segmentation [155.93344756264824]
大腸内視鏡画像の高精度なポリープ分割のための並列リバースアテンションネットワーク(PraNet)を提案する。
並列部分復号器(PPD)を用いて,まず高層層に特徴を集約する。
さらに,エリアとバウンダリの関連性を確立するために,リバースアテンション(RA)モジュールを用いて境界キューをマイニングする。
論文 参考訳(メタデータ) (2020-06-13T08:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。