論文の概要: Vision-Language Enhanced Foundation Model for Semi-supervised Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2511.19759v2
- Date: Wed, 26 Nov 2025 02:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.432077
- Title: Vision-Language Enhanced Foundation Model for Semi-supervised Medical Image Segmentation
- Title(参考訳): 半教師型医用画像セグメンテーションのためのビジョンランゲージ強化基盤モデル
- Authors: Jiaqi Guo, Mingzhen Li, Hanyu Su, Santiago López, Lexiaozi Fan, Daniel Kim, Aggelos Katsaggelos,
- Abstract要約: 半教師付き学習(SSL)は医用画像セグメンテーションの有効なパラダイムとして登場した。
SSLフレームワークに基盤レベルの視覚的セマンティック理解を組み込んだVESSA(Vision-Language Enhanced Semi-supervised Assistant)を導入する。
ステージ1では、VESSAはゴールドスタンダードの例を含むテンプレートバンクを使用して、参照誘導セグメンテーションアシスタントとして訓練される。
ステージ2では、VESSAは最先端のSSLフレームワークに統合され、学生モデルとの動的相互作用を可能にする。
- 参考スコア(独自算出の注目度): 6.524403694193453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised learning (SSL) has emerged as an effective paradigm for medical image segmentation, reducing the reliance on extensive expert annotations. Meanwhile, vision-language models (VLMs) have demonstrated strong generalization and few-shot capabilities across diverse visual domains. In this work, we integrate VLM-based segmentation into semi-supervised medical image segmentation by introducing a Vision-Language Enhanced Semi-supervised Segmentation Assistant (VESSA) that incorporates foundation-level visual-semantic understanding into SSL frameworks. Our approach consists of two stages. In Stage 1, the VLM-enhanced segmentation foundation model VESSA is trained as a reference-guided segmentation assistant using a template bank containing gold-standard exemplars, simulating learning from limited labeled data. Given an input-template pair, VESSA performs visual feature matching to extract representative semantic and spatial cues from exemplar segmentations, generating structured prompts for a SAM2-inspired mask decoder to produce segmentation masks. In Stage 2, VESSA is integrated into a state-of-the-art SSL framework, enabling dynamic interaction with the student model: as student predictions become more refined, they are fed back to VESSA as prompts, allowing it to generate higher-quality pseudo-labels and stronger guidance. Extensive experiments across multiple segmentation datasets and domains show that VESSA-augmented SSL significantly enhances segmentation accuracy, outperforming state-of-the-art baselines under extremely limited annotation conditions.
- Abstract(参考訳): 半教師付き学習(SSL)は、医用画像セグメンテーションの効果的なパラダイムとして登場し、豊富な専門家アノテーションへの依存を減らす。
一方、視覚言語モデル(VLM)は、様々な視覚領域にまたがる強力な一般化と少数ショット機能を示している。
本研究では,VLMベースのセグメンテーションを半教師付き医用画像セグメンテーションに統合し,基礎レベルの視覚的セグメンテーションをSSLフレームワークに組み込んだビジョンランゲージ拡張半教師付きセグメンテーションアシスタント(VESSA)を導入する。
私たちのアプローチは2つの段階から成り立っている。
ステージ1では、VLM強化セグメンテーション基礎モデルVESSAを、ゴールドスタンダードの例を含むテンプレートバンクを用いて基準誘導セグメンテーションアシスタントとして訓練し、限定ラベル付きデータからの学習をシミュレートする。
入力テンプレート対が与えられた場合、VESSAは視覚的特徴マッチングを行い、代表的なセグメンテーションから代表意味と空間的手がかりを抽出し、SAM2インスパイアされたマスクデコーダの構造化プロンプトを生成してセグメンテーションマスクを生成する。
VESSAは第2段階において、最先端のSSLフレームワークに統合され、学生モデルとの動的相互作用を可能にする。学生の予測が洗練されると、プロンプトとしてVESSAにフィードバックされ、高品質な擬似ラベルとより強力なガイダンスを生成することができる。
複数のセグメンテーションデータセットとドメインにわたる大規模な実験により、VESSAで拡張されたSSLはセグメンテーションの精度を大幅に向上し、非常に限定されたアノテーション条件下で最先端のベースラインを上回ります。
関連論文リスト
- RAU: Reference-based Anatomical Understanding with Vision Language Models [26.06602931463068]
視覚言語モデル(VLM)を用いた参照型解剖学的理解のためのフレームワークであるRAUを紹介する。
まず,VLMが参照画像と対象画像の相対的空間的推論により解剖学的領域の同定を学習することを示す。
次に, VLM由来の空間的手がかりをSAM2の細粒度セグメンテーション能力とシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2025-09-26T14:32:03Z) - X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。
テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。
インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文 参考訳(メタデータ) (2025-08-06T17:19:10Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - SEG-SAM: Semantic-Guided SAM for Unified Medical Image Segmentation [13.037264314135033]
本稿ではセマンティックガイドSAM(SEG-SAM)を提案する。
まず、バイナリとセマンティック予測の潜在的な衝突を避けるために、SAMの元々のデコーダとは独立にセマンティック・アウェア・デコーダを導入する。
我々は、大規模言語モデルから医療カテゴリーの重要な特徴を抽出し、テキスト・ツー・ビジョン・セマンティック・モジュールを通じてSEG-SAMに組み込む。
最後に、SEG-SAMの2つのデコーダから予測されたマスク間の重なり合いを促進するために、マスク間空間アライメント戦略を導入する。
論文 参考訳(メタデータ) (2024-12-17T08:29:13Z) - DuSSS: Dual Semantic Similarity-Supervised Vision-Language Model for Semi-Supervised Medical Image Segmentation [4.523111195300109]
半教師付き医療画像セグメンテーション(SSMIS)は、整合性学習を用いてモデルのトレーニングを規則化する。
SSMISは、しばしば低品質の擬似ラベルのエラー管理に悩まされる。
SSMISのためのDuSSS(Dual Semantic similarity-Supervised VLM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T02:47:00Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。