論文の概要: MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2602.20423v1
- Date: Mon, 23 Feb 2026 23:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.556097
- Title: MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation
- Title(参考訳): MedCLIPSeg:データ効率・一般化可能な医用画像セグメンテーションのための確率的視覚言語適応
- Authors: Taha Koleilat, Hojat Asgariandehkordi, Omid Nejati Manzari, Berardino Barile, Yiming Xiao, Hassan Rivaz,
- Abstract要約: MedCLIPSegは、CLIPを堅牢で、データ効率が高く、不確実性を認識した医療画像セグメンテーションに適応する新しいフレームワークである。
提案手法では,確率的クロスモーダルアテンションによるパッチレベルのCLIP埋め込みを活用し,画像とテキストトークン間の双方向インタラクションを実現する。
- 参考スコア(独自算出の注目度): 8.913012426353154
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Medical image segmentation remains challenging due to limited annotations for training, ambiguous anatomical features, and domain shifts. While vision-language models such as CLIP offer strong cross-modal representations, their potential for dense, text-guided medical image segmentation remains underexplored. We present MedCLIPSeg, a novel framework that adapts CLIP for robust, data-efficient, and uncertainty-aware medical image segmentation. Our approach leverages patch-level CLIP embeddings through probabilistic cross-modal attention, enabling bidirectional interaction between image and text tokens and explicit modeling of predictive uncertainty. Together with a soft patch-level contrastive loss that encourages more nuanced semantic learning across diverse textual prompts, MedCLIPSeg effectively improves data efficiency and domain generalizability. Extensive experiments across 16 datasets spanning five imaging modalities and six organs demonstrate that MedCLIPSeg outperforms prior methods in accuracy, efficiency, and robustness, while providing interpretable uncertainty maps that highlight local reliability of segmentation results. This work demonstrates the potential of probabilistic vision-language modeling for text-driven medical image segmentation.
- Abstract(参考訳): 医用画像のセグメンテーションは、訓練のための限られたアノテーション、あいまいな解剖学的特徴、ドメインシフトのために依然として困難である。
CLIPのような視覚言語モデルは強力なクロスモーダル表現を提供するが、密度の高いテキスト誘導型医療画像セグメント化の可能性はいまだ検討されていない。
MedCLIPSegは、CLIPを堅牢で、データ効率が高く、不確実性を認識した医療画像セグメンテーションに適応する新しいフレームワークである。
提案手法は,画像とテキストトークン間の双方向インタラクションと,予測不確実性の明示的なモデリングを実現するため,確率的相互注意によるパッチレベルのCLIP埋め込みを利用する。
MedCLIPSegは、ソフトパッチレベルのコントラスト損失により、さまざまなテキストプロンプトにわたるよりニュアンスなセマンティックラーニングを促進するとともに、データ効率とドメインの一般化性を効果的に改善する。
5つの画像モダリティと6つの臓器にまたがる16のデータセットにわたる大規模な実験により、MedCLIPSegは精度、効率、堅牢性において従来の手法よりも優れており、セグメンテーション結果の局所的な信頼性を強調する解釈可能な不確実性マップを提供する。
本研究は,テキスト駆動型医用画像セグメンテーションにおける確率論的視覚言語モデリングの可能性を示す。
関連論文リスト
- MedProbCLIP: Probabilistic Adaptation of Vision-Language Foundation Model for Reliable Radiograph-Report Retrieval [3.7054279251399507]
MedProbCLIPは胸部X線および放射線学報告表現学習と双方向検索のための確率論的視覚言語学習フレームワークである。
このフレームワークは、トレーニング中にマルチビュー・ラジオグラフィエンコーディングとマルチセクション・レポートエンコーディングを使用して、臨床に整合した対応のためのきめ細かい監督を提供する。
これはCLIP、CXR-CLIP、PCME++などの決定論的および確率的ベースラインを、検索とゼロショットの両方で上回る。
論文 参考訳(メタデータ) (2026-02-17T21:20:32Z) - MAMBO-NET: Multi-Causal Aware Modeling Backdoor-Intervention Optimization for Medical Image Segmentation Network [51.68708264694361]
融合因子は、複雑な解剖学的変異や画像のモダリティ制限などの医療画像に影響を与える可能性がある。
医用画像セグメンテーションのためのバックドア・インターベンション最適化ネットワークを提案する。
本手法は, 混乱要因の影響を著しく低減し, セグメンテーション精度を向上させる。
論文 参考訳(メタデータ) (2025-05-28T01:40:10Z) - FlowSDF: Flow Matching for Medical Image Segmentation Using Distance Transforms [60.195642571004804]
本稿では,セグメンテーションマスクの暗黙分布を表現するために,画像誘導型条件付きフローマッチングフレームワークであるFlowSDFを紹介する。
本フレームワークは,セグメンテーションマスクの正確なサンプリングと関連する統計指標の計算を可能にする。
論文 参考訳(メタデータ) (2024-05-28T11:47:12Z) - OTCXR: Rethinking Self-supervised Alignment using Optimal Transport for Chest X-ray Analysis [6.4136876268620115]
自己教師付き学習(SSL)は,X線などの医学的モダリティを解析するための有望な手法として登場した。
我々は,OTCXRを提案する。OTCXRは最適なトランスポート(OT)を利用して,密接なセマンティック不変性を学習する新しいSSLフレームワークである。
我々はOTCXRの有効性を3つの公開胸部X線データセットの総合的な実験により検証した。
論文 参考訳(メタデータ) (2024-04-18T02:59:48Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。