論文の概要: MedSAD-CLIP: Supervised CLIP with Token-Patch Cross-Attention for Medical Anomaly Detection and Segmentation
- arxiv url: http://arxiv.org/abs/2603.17325v1
- Date: Wed, 18 Mar 2026 03:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.500622
- Title: MedSAD-CLIP: Supervised CLIP with Token-Patch Cross-Attention for Medical Anomaly Detection and Segmentation
- Title(参考訳): MedSAD-CLIP:Token-Patch Cross-Attention を併用したCLIPによる検診・検診
- Authors: Thuy Truong Tran, Minh Kha Do, Phuc Nguyen Duy, Min Hun Lee,
- Abstract要約: 医学的異常検出(MAD)とセグメンテーション(セグメンテーション)は臨床診断を補助する重要な役割を担っている。
最近のCLIPベースの研究は、ゼロ/フェーショット設定における異常検出を約束している。
現実的な臨床環境下でのMADに対するCLIPの適応について検討した。
- 参考スコア(独自算出の注目度): 1.055294253870608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical anomaly detection (MAD) and segmentation play a critical role in assisting clinical diagnosis by identifying abnormal regions in medical images and localizing pathological regions. Recent CLIP-based studies are promising for anomaly detection in zero-/few-shot settings, and typically rely on global representations and weak supervision, often producing coarse localization and limited segmentation quality. In this work, we study supervised adaptation of CLIP for MAD under a realistic clinical setting where a limited yet meaningful amount of labeled abnormal data is available. Our model MedSAD-CLIP leverages fine-grained text-visual cues via the Token-Patch Cross-Attention(TPCA) to improve lesion localization while preserving the generalization capability of CLIP representations. Lightweight image adapters and learnable prompt tokens efficiently adapt the pretrained CLIP encoder to the medical domain while preserving its rich semantic alignment. Furthermore, a Margin-based image-text Contrastive Loss is designed to enhance global feature discrimination between normal and abnormal representations. Extensive experiments on four diverse benchmarks-Brain, Retina, Lung, and Breast datasets-demonstrate the effectiveness of our approach, achieving superior performance in both pixel-level segmentation and image-level classification over state-of-the-art methods. Our results highlight the potential of supervised CLIP adaptation as a unified and scalable paradigm for medical anomaly understanding. Code will be made available at https://github.com/thuy4tbn99/MedSAD-CLIP
- Abstract(参考訳): 医学的異常検出(MAD)とセグメンテーション(セグメンテーション)は、医学的画像中の異常領域を同定し、局所的な病態領域を同定することにより、臨床診断を支援する上で重要な役割を担っている。
最近のCLIPベースの研究は、ゼロショットやフェーショットの設定における異常検出を約束しており、大域的な表現と弱い監督に依存しており、しばしば粗い局所化と限定的なセグメンテーション品質を生み出している。
本研究は,MADに対するCLIPの適応を,限定的かつ有意なラベル付き異常データが利用可能である現実的な臨床環境下での指導的適応について検討する。
われわれのモデルであるMedSAD-CLIPは、Token-Patch Cross-Attention(TPCA)を介して微細なテキスト・ビジュアル・キューを利用して、CLIP表現の一般化能力を保ち、病変の局所化を改善する。
軽量画像アダプタと学習可能なプロンプトトークンは、豊富なセマンティックアライメントを維持しながら、トレーニング済みのCLIPエンコーダを医療領域に効率よく適応させる。
さらに、Marginベースの画像テキストコントラシブロスは、正規表現と異常表現のグローバルな特徴識別を強化するように設計されている。
Brain, Retina, Lung, Breastの4つのベンチマーク実験により, 提案手法の有効性を実証し, 画素レベルのセグメンテーションと画像レベルの分類において, 最先端の手法よりも優れた性能を達成した。
以上の結果から,CLIP適応は医学的異常理解のための統一的でスケーラブルなパラダイムである可能性が示唆された。
コードはhttps://github.com/thuy4tbn99/MedSAD-CLIPで利用可能になる。
関連論文リスト
- Towards Continual Visual Anomaly Detection in the Medical Domain [11.262875405161417]
視覚異常検出(VAD)は、異常画像を特定し、対応する異常領域を正確に特定する。
継続的学習(CL)は、以前獲得した知識を保持しながらモデルを段階的に適応するためのフレームワークを提供する。
本研究は、医療分野におけるCLシナリオにおけるVADモデルの適用について、初めて考察する。
論文 参考訳(メタデータ) (2025-08-25T13:28:15Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - MADPOT: Medical Anomaly Detection with CLIP Adaptation and Partial Optimal Transport [14.023527193608142]
医用画像へのCLIPの適応性を改善するために,視覚的アダプタとPOT(Partial Optimal Transport)とCL(Contentive Learning)を組み合わせた新しいアプローチを提案する。
本手法は, 合成データやメモリバンクを使わずに, 少数ショット, ゼロショット, クロスデータセットのシナリオにおいて, 最先端の結果を得る。
論文 参考訳(メタデータ) (2025-07-09T10:45:52Z) - MadCLIP: Few-shot Medical Anomaly Detection with CLIP [14.023527193608142]
医療データに事前訓練されたCLIPモデルを活用する,革新的な数発の異常検出手法を提案する。
学習可能なアダプタを用いて,正常な特徴と異常な特徴を別々に捉えるために,デュアルブランチ設計を提案する。
セマンティックアライメントを改善するために、学習可能なテキストプロンプトを使用して視覚的特徴をリンクする。
論文 参考訳(メタデータ) (2025-06-30T12:56:17Z) - Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detection [50.343419243749054]
異常検出は、医学診断や工業的欠陥検出などの分野において重要である。
CLIPの粗粒化画像テキストアライメントは、微粒化異常に対する局所化と検出性能を制限する。
クレーンは最先端のZSADを2%から28%に改善し、画像レベルとピクセルレベルの両方で、推論速度では競争力を維持している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - Visual Prompt Engineering for Vision Language Models in Radiology [0.17183214167143138]
Contrastive Language-Image Pretraining (CLIP)は,マルチモーダルな大規模事前訓練によるゼロショット分類を可能にすることで,有望なソリューションを提供する。
CLIPは、グローバルな画像コンテンツを効果的にキャプチャするが、ラジオロジーは、解釈可能性と診断精度の両方を高めるために、特定の病理領域により局所的な焦点をあてる必要がある。
視覚的手がかりをゼロショット分類に組み込む可能性を探り、矢印、バウンディングボックス、円などの視覚的マーカーを直接放射線画像に埋め込んでモデル注意を誘導する。
論文 参考訳(メタデータ) (2024-08-28T13:53:27Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。