論文の概要: SD-FSMIS: Adapting Stable Diffusion for Few-Shot Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2604.03134v2
- Date: Thu, 09 Apr 2026 06:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 14:10:47.855553
- Title: SD-FSMIS: Adapting Stable Diffusion for Few-Shot Medical Image Segmentation
- Title(参考訳): SD-FSMIS : Few-Shot 画像分割のための安定拡散適応法
- Authors: Meihua Li, Yang Zhang, Weizhao He, Hu Qu, Yisong Li,
- Abstract要約: Few-Shot Medical Image (FSMIS) は、最小限のアノテート例のみを用いて、新しいオブジェクトクラスを医療画像に分割することを目的としている。
SD-FSMISは、FSMISタスクに強力な安定拡散モデルを効果的に適応する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 4.580922649026417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-Shot Medical Image Segmentation (FSMIS) aims to segment novel object classes in medical images using only minimal annotated examples, addressing the critical challenges of data scarcity and domain shifts prevalent in medical imaging. While Diffusion Models (DM) excel in visual tasks, their potential for FSMIS remains largely unexplored. We propose that the rich visual priors learned by large-scale DMs offer a powerful foundation for a more robust and data-efficient segmentation approach. In this paper, we introduce SD-FSMIS, a novel framework designed to effectively adapt the powerful pre-trained Stable Diffusion (SD) model for the FSMIS task. Our approach repurposes its conditional generative architecture by introducing two key components: a Support-Query Interaction (SQI) and a Visual-to-Textual Condition Translator (VTCT). Specifically, SQI provides a straightforward yet powerful means of adapting SD to the FSMIS paradigm. The VTCT module translates visual cues from the support set into an implicit textual embedding that guides the diffusion model, enabling precise conditioning of the generation process. Extensive experiments demonstrate that SD-FSMIS achieves competitive results compared to state-of-the-art methods in standard settings. Surprisingly, it also demonstrated excellent generalization ability in more challenging cross-domain scenarios. These findings highlight the immense potential of adapting large-scale generative models to advance data-efficient and robust medical image segmentation.
- Abstract(参考訳): Few-Shot Medical Image Segmentation (FSMIS) は、最小限のアノテート例のみを用いて、医用画像に新しいオブジェクトクラスを分割することを目的としている。
Diffusion Models (DM) は視覚的タスクに優れるが、FSMIS の可能性はほとんど未解明である。
大規模DMによって学習されたリッチな視覚的先行性は、より堅牢でデータ効率の良いセグメンテーションアプローチの強力な基盤となることを提案する。
本稿では,SD-FSMISを提案する。SD-FSMISは,FSMISタスクに対して,強力なトレーニング済み安定拡散(SD)モデルを効果的に適用するための新しいフレームワークである。
本稿では,SQI (Support-Query Interaction) とVTCT (Visual-to-Textual Condition Translator) という2つの重要なコンポーネントを導入することで,条件生成アーキテクチャを再利用する。
具体的には、SQIはSDをFSMISパラダイムに適応する単純かつ強力な手段を提供する。
VTCTモジュールは、サポートセットから、拡散モデルを導く暗黙のテキスト埋め込みに変換することで、生成プロセスの正確な条件付けを可能にする。
SD-FSMISは、標準設定における最先端の手法と比較して、競争力のある結果が得られることを示した。
驚くべきことに、より挑戦的なクロスドメインシナリオにおいて、優れた一般化能力を示した。
これらの知見は、データ効率と堅牢な医用画像セグメント化を推し進めるために、大規模生成モデルを適用する大きな可能性を浮き彫りにした。
関連論文リスト
- Improving Generalization of Medical Image Registration Foundation Model [12.144724550118756]
本稿では,医療画像登録における一般化と堅牢性を高めるため,シャープネス・アウェアの最小化を基礎モデルに組み込む。
実験結果から,SAMと統合された基礎モデルにより,データセット間の登録性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2025-05-10T06:14:09Z) - ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models [95.47808515575382]
ExGra-Medは、医療AIのビジョン言語統合のための新しいフレームワークである。
画像、命令応答、拡張キャプションを潜在空間にアライメントし、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
プレトレーニングデータの10%しか使用せず、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - Cross-conditioned Diffusion Model for Medical Image to Image Translation [22.020931436223204]
医用画像から画像への変換のためのクロスコンディショニング拡散モデル(CDM)を提案する。
まず、目的のモダリティの分布をモデル化するためのモダリティ固有表現モデル(MRM)を提案する。
そして、MDN(Modality-Decoupled Diffusion Network)を設計し、MRMから効率よく効果的に分布を学習する。
論文 参考訳(メタデータ) (2024-09-13T02:48:56Z) - Do Vision Foundation Models Enhance Domain Generalization in Medical Image Segmentation? [10.20366295974822]
本稿では,2つの最先端デコーダヘッドであるHSAMとHQSAMの要素を統合し,セグメンテーション性能を向上させる新しいデコーダヘッドアーキテクチャであるHQHSAMを紹介する。
種々の解剖学やモダリティを含む複数のデータセットに対する実験により,FM,特にHQHSAMデコードヘッドを用いて,医用画像分割のための領域一般化が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-09-12T11:41:35Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - VIS-MAE: An Efficient Self-supervised Learning Approach on Medical Image Segmentation and Classification [33.699424327366856]
医用画像に特化して設計された新しいモデルウェイトであるVisualization and Masked AutoEncoder(VIS-MAE)について述べる。
VIS-MAEは、様々なモダリティから250万枚の未ラベル画像のデータセットで訓練されている。
その後、明示的なラベルを使って分類とセグメンテーションのタスクに適応する。
論文 参考訳(メタデータ) (2024-02-01T21:45:12Z) - Building Universal Foundation Models for Medical Image Analysis with
Spatially Adaptive Networks [5.661631789478932]
医用画像解析のための普遍的基礎モデルを提案する。
55の公開医用画像データセット上のマスク画像モデリング(MIM)を用いて、空間適応型視覚トークンーザ(SPAD-VT)と空間適応型視覚変換器(SPAD-ViT)を事前訓練する。
下流の医用画像分類とセグメンテーションタスクの実験結果から,本モデルの性能とラベルの効率が向上したことを示す。
論文 参考訳(メタデータ) (2023-12-12T08:33:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。