論文の概要: GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2603.01115v1
- Date: Sun, 01 Mar 2026 13:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.518505
- Title: GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation
- Title(参考訳): Guidino:医療画像セグメンテーションにおけるビジョンファウンデーションモデルの再考
- Authors: Zhuonan Liang, Wei Guo, Jie Gan, Yaxuan Song, Runnan Chen, Hang Chang, Weidong Cai,
- Abstract要約: 本稿では,下流セグメンテーションのための視覚誘導ジェネレータとして機能するために,ネイティブファンデーションモデルを再配置するフレームワークGuiDINOを紹介する。
GuiDINOはDINOv3から視覚的特徴表現を抽出し、軽量のTokenBookメカニズムを介して空間的ガイドマスクに変換する。
GuiDINOは、さまざまな医療データセット間のセグメンテーション品質とバウンダリロバスト性を一貫して改善する。
- 参考スコア(独自算出の注目度): 17.779537669931926
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Foundation vision models are increasingly adopted in medical image analysis. Due to domain shift, these pretrained models misalign with medical image segmentation needs without being fully fine-tuned or lightly adapted. We introduce GuiDINO, a framework that repositions native foundation model to acting as a visual guidance generator for downstream segmentation. GuiDINO extracts visual feature representation from DINOv3 and converts them into a spatial guide mask via a lightweight TokenBook mechanism, which aggregates token-prototype similarities. This guide mask gates feature activations in multiple segmentation backbones, thereby injecting foundation-model priors while preserving the inductive biases and efficiency of medical dedicated architectures. Training relies on a guide supervision objective loss that aligns the guide mask to ground-truth regions, optionally augmented by a boundary-focused hinge loss to sharpen fine structures. GuiDINO also supports parameter-efficient adaptation through LoRA on the DINOv3 guide backbone. Across diverse medical datasets and nnUNet-style inference, GuiDINO consistently improves segmentation quality and boundary robustness, suggesting a practical alternative to fine-tuning and offering a new perspective on how foundation models can best serve medical vision. Code is available at https://github.com/Hi-FishU/GuiDINO
- Abstract(参考訳): 基礎視覚モデルは、医療画像解析においてますます採用されている。
ドメインシフトのため、これらの事前訓練されたモデルは、完全に微調整されるか、軽く適応されることなく、医療画像のセグメンテーションに不適当である。
本稿では,下流セグメンテーションのための視覚誘導ジェネレータとして機能するために,ネイティブファンデーションモデルを再配置するフレームワークGuiDINOを紹介する。
GuiDINOはDINOv3から視覚的特徴表現を抽出し、トークンとプロトタイプの類似性を集約する軽量なTokenBookメカニズムを介して空間的ガイドマスクに変換する。
本発明のガイドマスクゲートは、複数のセグメンテーションバックボーンにおいて活性化を特徴とし、医療専用アーキテクチャの誘導バイアスと効率を保ちながら基礎モデル先行を注入する。
トレーニングはガイドマスクを地平線領域に整列させ、境界中心のヒンジ損失によって任意に強化して微細な構造物を鋭くするガイド監督目的損失に依存している。
GuiDINOは、DINOv3ガイドバックボーン上のLoRAによるパラメータ効率の適応もサポートしている。
多様な医療データセットとnnUNetスタイルの推論を通じて、GuiDINOはセグメンテーションの品質とバウンダリロバスト性を一貫して改善し、微調整の実践的な代替手段として提案し、基礎モデルが医療ビジョンに最適な方法を示す新しい視点を提供する。
コードはhttps://github.com/Hi-FishU/GuiDINOで入手できる。
関連論文リスト
- PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。
本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。
本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-04-09T14:58:21Z) - Locality Alignment Improves Vision-Language Models [55.275235524659905]
近年では視覚言語モデル (VLM) が普及しているが、その多くが基本的な空間推論の誤りに悩まされている。
私たちのゴールは、ローカルとグローバルの両方の画像セマンティクスを効果的にキャプチャするビジョンバックボーンでこれを解決することです。
局所性アライメントとMaskEmbedと呼ばれる新しい微調整手順を提案する。
論文 参考訳(メタデータ) (2024-10-14T21:01:01Z) - Cross-Domain Distribution Alignment for Segmentation of Private Unannotated 3D Medical Images [20.206972068340843]
本稿では、この問題を解決するために、新しいソースフリーなUnsupervised Domain Adaptation (UDA) 手法を提案する。
我々のアイデアは、ベースモデルにより、関連するソースドメインの内部的に学習された分布を推定することに基づいている。
我々は,実世界の3D医療データセット上でのSOTA性能を実証した。
論文 参考訳(メタデータ) (2024-10-11T19:28:10Z) - Generalizing Segmentation Foundation Model Under Sim-to-real Domain-shift for Guidewire Segmentation in X-ray Fluoroscopy [1.4353812560047192]
Sim-to-real ドメイン適応アプローチは、コスト効率の良いソリューションを提供するシミュレーションから合成データを利用する。
対象領域のアノテーションを使わずに、SAMを蛍光X線ガイドワイヤセグメント化に適応させる戦略を提案する。
提案手法は、事前訓練されたSAMと、最先端のドメイン適応技術の両方を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-10-09T21:59:48Z) - Prompting Segment Anything Model with Domain-Adaptive Prototype for Generalizable Medical Image Segmentation [49.5901368256326]
医用画像のセグメンテーションにおけるセグメンテーションモデル(DAPSAM)の微調整のための新しいドメイン適応型プロンプトフレームワークを提案する。
DAPSAMは,2つの医療画像分割タスクにおいて,異なるモダリティで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-19T07:28:33Z) - Promise:Prompt-driven 3D Medical Image Segmentation Using Pretrained
Image Foundation Models [13.08275555017179]
単点プロンプトのみを用いたプロンプト駆動型3次元医用画像分割モデルProMISeを提案する。
今回,大腸癌と膵腫瘍の2つの領域に分布する2つのパブリックデータセットについて検討した。
論文 参考訳(メタデータ) (2023-10-30T16:49:03Z) - MAP: Domain Generalization via Meta-Learning on Anatomy-Consistent
Pseudo-Modalities [12.194439938007672]
解剖学的に整合した擬似モダリティ(MAP)のメタラーニングを提案する。
MAPは構造的特徴を学習することでモデル一般化性を向上させる。
各種網膜画像モダリティの公開データセットを7つ評価した。
論文 参考訳(メタデータ) (2023-09-03T22:56:22Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Self-Guided Diffusion Models [53.825634944114285]
自己誘導拡散モデルのためのフレームワークを提案する。
本手法は,様々な画像粒度の誘導信号を提供する。
単ラベルおよび複数ラベルの画像データセットに対する実験により、自己ラベル付きガイダンスは誘導なしで拡散モデルより常に優れていることが示された。
論文 参考訳(メタデータ) (2022-10-12T17:57:58Z) - Unsupervised Instance Segmentation in Microscopy Images via Panoptic
Domain Adaptation and Task Re-weighting [86.33696045574692]
病理組織像における教師なし核分割のためのCycle Consistency Panoptic Domain Adaptive Mask R-CNN(CyC-PDAM)アーキテクチャを提案する。
まず,合成画像中の補助的な生成物を除去するための核塗布機構を提案する。
第二に、ドメイン識別器を持つセマンティックブランチは、パンプトレベルのドメイン適応を実現するように設計されている。
論文 参考訳(メタデータ) (2020-05-05T11:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。