論文の概要: CausalCLIPSeg: Unlocking CLIP's Potential in Referring Medical Image Segmentation with Causal Intervention
- arxiv url: http://arxiv.org/abs/2503.15949v1
- Date: Thu, 20 Mar 2025 08:46:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:33:59.277283
- Title: CausalCLIPSeg: Unlocking CLIP's Potential in Referring Medical Image Segmentation with Causal Intervention
- Title(参考訳): CausalCLIPSeg:Causal Interventionによる医用画像の抽出におけるCLIPの可能性の解錠
- Authors: Yaxiong Chen, Minghong Wei, Zixuan Zheng, Jingliang Hu, Yilei Shi, Shengwu Xiong, Xiao Xiang Zhu, Lichao Mou,
- Abstract要約: 本稿では医療画像セグメンテーションのためのエンドツーエンドフレームワークCausalCLIPSegを提案する。
医療データのトレーニングを受けていないにもかかわらず、医療領域にCLIPの豊富な意味空間を強制する。
CausalCLIPSegは、モデルが急激な相関関係を学習する可能性がある境界バイアスを軽減するために、因果介入モジュールを導入している。
- 参考スコア(独自算出の注目度): 30.501326915750898
- License:
- Abstract: Referring medical image segmentation targets delineating lesions indicated by textual descriptions. Aligning visual and textual cues is challenging due to their distinct data properties. Inspired by large-scale pre-trained vision-language models, we propose CausalCLIPSeg, an end-to-end framework for referring medical image segmentation that leverages CLIP. Despite not being trained on medical data, we enforce CLIP's rich semantic space onto the medical domain by a tailored cross-modal decoding method to achieve text-to-pixel alignment. Furthermore, to mitigate confounding bias that may cause the model to learn spurious correlations instead of meaningful causal relationships, CausalCLIPSeg introduces a causal intervention module which self-annotates confounders and excavates causal features from inputs for segmentation judgments. We also devise an adversarial min-max game to optimize causal features while penalizing confounding ones. Extensive experiments demonstrate the state-of-the-art performance of our proposed method. Code is available at https://github.com/WUTCM-Lab/CausalCLIPSeg.
- Abstract(参考訳): 医用画像のセグメンテーションの参照は、テキスト記述によって示される病変を指示する。
視覚的およびテキスト的キューのアライメントは、データ特性が異なるため、難しい。
大規模な事前学習型視覚言語モデルから着想を得たCausalCLIPSegを提案する。
医用データでは訓練されていないが,テキスト・ツー・ピクセルアライメントを実現するために,CLIPのリッチ・セマンティック・スペースを調整したクロスモーダル・デコーディング法により医療領域に導入する。
さらに、モデルが有意義な因果関係ではなく急激な相関を学習する原因となる境界バイアスを軽減するために、CausalCLIPSegは、共著者を自己アノテーションし、分節判断のための入力から因果的特徴を抽出する因果的介入モジュールを導入した。
また, 因果的特徴を最適化し, 相反する特徴をペナルティ化するために, 対戦型min-maxゲームも考案した。
大規模実験により,提案手法の最先端性能が実証された。
コードはhttps://github.com/WUTCM-Lab/CausalCLIPSegで入手できる。
関連論文リスト
- MedFILIP: Medical Fine-grained Language-Image Pre-training [11.894318326422054]
既存の手法は、画像と疾患の関連性を正確に特徴づけるのに苦労している。
MedFILIPは対照的な学習を通じて医用画像固有の知識を導入する。
単一ラベル,多ラベル,きめ細かな分類を行う場合,本モデルは最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-01-18T14:08:33Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Data Alignment for Zero-Shot Concept Generation in Dermatology AI [0.6906005491572401]
ゼロショット機能を提供するCLIPのようなファンデーションモデルは、この課題を軽減するのに役立つ。
CLIPは、ドメイン固有のイメージキャプチャペアを使用して微調整することで、分類性能を改善することができる。
私たちのゴールは、これらのモデルを使用して、臨床辞書とCLIPの事前学習データに使用される自然言語の両方に適合するキャプションテキストを生成することです。
論文 参考訳(メタデータ) (2024-04-19T17:57:29Z) - OTCXR: Rethinking Self-supervised Alignment using Optimal Transport for Chest X-ray Analysis [6.4136876268620115]
自己教師付き学習(SSL)は,X線などの医学的モダリティを解析するための有望な手法として登場した。
我々は,OTCXRを提案する。OTCXRは最適なトランスポート(OT)を利用して,密接なセマンティック不変性を学習する新しいSSLフレームワークである。
我々はOTCXRの有効性を3つの公開胸部X線データセットの総合的な実験により検証した。
論文 参考訳(メタデータ) (2024-04-18T02:59:48Z) - A Closer Look at the Explainability of Contrastive Language-Image Pre-training [16.10032166963232]
Contrastive Language-image Pre-training (CLIP)は、様々なタスクに対して大きなメリットを示す強力なビジョン言語モデルである。
我々は,その信頼性を損なうような説明可能性の問題と,関連するタスクのキャパシティの制限を指摘した。
本稿では,CLIP surgery for reliable CAMを提案する。
論文 参考訳(メタデータ) (2023-04-12T07:16:55Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。