論文の概要: Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2508.05008v1
- Date: Thu, 07 Aug 2025 03:41:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.656012
- Title: Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation
- Title(参考訳): 一般化可能な医用画像分割のためのマルチモーダル因果関係表現学習
- Authors: Xusheng Liang, Lihua Zhou, Nianxin Li, Miao Xu, Ziyang Song, Dong Yi, Jinlin Wu, Hongbin Liu, Jiebo Luo, Zhen Lei,
- Abstract要約: 医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
- 参考スコア(独自算出の注目度): 56.52520416420957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs), such as CLIP, have demonstrated remarkable zero-shot capabilities in various computer vision tasks. However, their application to medical imaging remains challenging due to the high variability and complexity of medical data. Specifically, medical images often exhibit significant domain shifts caused by various confounders, including equipment differences, procedure artifacts, and imaging modes, which can lead to poor generalization when models are applied to unseen domains. To address this limitation, we propose Multimodal Causal-Driven Representation Learning (MCDRL), a novel framework that integrates causal inference with the VLM to tackle domain generalization in medical image segmentation. MCDRL is implemented in two steps: first, it leverages CLIP's cross-modal capabilities to identify candidate lesion regions and construct a confounder dictionary through text prompts, specifically designed to represent domain-specific variations; second, it trains a causal intervention network that utilizes this dictionary to identify and eliminate the influence of these domain-specific variations while preserving the anatomical structural information critical for segmentation tasks. Extensive experiments demonstrate that MCDRL consistently outperforms competing methods, yielding superior segmentation accuracy and exhibiting robust generalizability.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて顕著なゼロショット機能を示している。
しかし、医療データの多様性と複雑さのため、医療画像への応用は依然として困難である。
特に、医療画像は、機器の違い、プロシージャのアーティファクト、イメージングモードなど、様々な共同創設者によって引き起こされる重要なドメインシフトを示すことが多い。
この制限に対処するため,医用画像セグメンテーションにおける領域一般化に取り組むために,VLMに因果推論を統合する新しいフレームワークであるMCDRLを提案する。
MCDRLは2つのステップで実装されている: 第一に、CLIPのクロスモーダル機能を活用して、候補病変領域を特定し、特にドメイン固有のバリエーションを表現するように設計されたテキストプロンプトを通じて、共同編集者辞書を構築する。
大規模な実験により、MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示すことが示された。
関連論文リスト
- MAMBO-NET: Multi-Causal Aware Modeling Backdoor-Intervention Optimization for Medical Image Segmentation Network [51.68708264694361]
融合因子は、複雑な解剖学的変異や画像のモダリティ制限などの医療画像に影響を与える可能性がある。
医用画像セグメンテーションのためのバックドア・インターベンション最適化ネットワークを提案する。
本手法は, 混乱要因の影響を著しく低減し, セグメンテーション精度を向上させる。
論文 参考訳(メタデータ) (2025-05-28T01:40:10Z) - MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation [4.760537994346813]
医用画像報告は、放射線画像から構造化された臨床記述を生成することを目的としている。
そこで我々は, ゲート型クロスアライメント融合モデルであるMicarVLMoEを提案する。
我々は、MIRをCTスキャン、網膜イメージング、MRIスキャン、Grog pathology imageに拡張し、最先端の結果を報告する。
論文 参考訳(メタデータ) (2025-04-29T01:26:02Z) - Zeus: Zero-shot LLM Instruction for Union Segmentation in Multimodal Medical Imaging [4.341503087761129]
マルチモーダル学習の実行には、ソリューションとして示される視覚とテキストのモダリティが含まれるが、ペア化されたビジョン言語データセットの収集は高価で時間を要する。
大規模言語モデル(LLM)における多くのクロスモーダルタスクの優れた能力に触発されて、我々はこの問題に対処する新しいビジョン・LLM統合フレームワークを提案しました。
論文 参考訳(メタデータ) (2025-04-09T23:33:35Z) - Generalizable Single-Source Cross-modality Medical Image Segmentation via Invariant Causal Mechanisms [16.699205051836657]
単一ソースドメインの一般化は、見当たらないターゲットドメインをうまく一般化できる単一のソースドメインからモデルを学ぶことを目的としている。
これはコンピュータビジョンにおいて重要なタスクであり、特にドメインシフトが一般的である医療画像に関係している。
我々は,領域不変表現の学習に関する因果性に着想を得た理論的洞察と拡散に基づく拡張の最近の進歩を組み合わせることにより,多様な画像モダリティの一般化を向上する。
論文 参考訳(メタデータ) (2024-11-07T22:35:17Z) - Do Vision Foundation Models Enhance Domain Generalization in Medical Image Segmentation? [10.20366295974822]
本稿では,2つの最先端デコーダヘッドであるHSAMとHQSAMの要素を統合し,セグメンテーション性能を向上させる新しいデコーダヘッドアーキテクチャであるHQHSAMを紹介する。
種々の解剖学やモダリティを含む複数のデータセットに対する実験により,FM,特にHQHSAMデコードヘッドを用いて,医用画像分割のための領域一般化が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-09-12T11:41:35Z) - Modality-agnostic Domain Generalizable Medical Image Segmentation by Multi-Frequency in Multi-Scale Attention [1.1155836879100416]
医用画像セグメンテーションのためのModality-Agnostic Domain Generalizable Network (MADGNet)を提案する。
MFMSAブロックは空間的特徴抽出の過程を洗練させる。
E-SDMは、深い監督を伴うマルチタスク学習における情報損失を軽減する。
論文 参考訳(メタデータ) (2024-05-10T07:34:36Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Cross-Modality Brain Tumor Segmentation via Bidirectional
Global-to-Local Unsupervised Domain Adaptation [61.01704175938995]
本論文では,UDAスキームに基づくBiGL(Bidirectional Global-to-Local)適応フレームワークを提案する。
具体的には、脳腫瘍をセグメント化するために、双方向画像合成およびセグメンテーションモジュールを提案する。
提案手法は, 最先端の非教師なし領域適応法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-05-17T10:11:45Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。