論文の概要: Vision-Language Semantic Aggregation Leveraging Foundation Model for Generalizable Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2509.08570v1
- Date: Wed, 10 Sep 2025 13:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.428525
- Title: Vision-Language Semantic Aggregation Leveraging Foundation Model for Generalizable Medical Image Segmentation
- Title(参考訳): 一般化可能な医用画像セグメンテーションのための視覚言語セマンティックアグリゲーションレバレッジ基礎モデル
- Authors: Wenjun Yu, Yinchen Zhou, Jia-Xuan Jiang, Shubin Zeng, Yuee Li, Zhong Wang,
- Abstract要約: 本稿では,期待最大化(EM)アグリゲーション機構とテキストガイド付きPixelデコーダを提案する。
後者は、ドメイン不変のテキスト知識を利用して、深い視覚的表現を効果的に導くことによって、意味的ギャップを埋めるように設計されている。
提案手法は,複数の領域一般化ベンチマークにおいて,既存のSOTA手法より一貫して優れている。
- 参考スコア(独自算出の注目度): 5.597576681565333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal models have achieved remarkable success in natural image segmentation, yet they often underperform when applied to the medical domain. Through extensive study, we attribute this performance gap to the challenges of multimodal fusion, primarily the significant semantic gap between abstract textual prompts and fine-grained medical visual features, as well as the resulting feature dispersion. To address these issues, we revisit the problem from the perspective of semantic aggregation. Specifically, we propose an Expectation-Maximization (EM) Aggregation mechanism and a Text-Guided Pixel Decoder. The former mitigates feature dispersion by dynamically clustering features into compact semantic centers to enhance cross-modal correspondence. The latter is designed to bridge the semantic gap by leveraging domain-invariant textual knowledge to effectively guide deep visual representations. The synergy between these two mechanisms significantly improves the model's generalization ability. Extensive experiments on public cardiac and fundus datasets demonstrate that our method consistently outperforms existing SOTA approaches across multiple domain generalization benchmarks.
- Abstract(参考訳): マルチモーダルモデルは、自然画像のセグメンテーションにおいて顕著な成功を収めてきたが、医療領域に適用された場合、しばしば性能が劣っている。
広汎な研究を通じて、このパフォーマンスギャップは、主に抽象的なテキストプロンプトと微細な医用視覚的特徴と、結果として生じる特徴分散との間の重要な意味的ギャップであるマルチモーダル融合の課題に起因している。
これらの問題に対処するため,意味的アグリゲーションの観点から問題を再考する。
具体的には,期待最大化(EM)アグリゲーション機構とテキストガイド付きPixelデコーダを提案する。
前者は動的クラスタリングによる特徴分散をコンパクトなセマンティックセンタに分解し、相互モーダル対応を強化する。
後者は、ドメイン不変のテキスト知識を利用して、深い視覚的表現を効果的に導くことによって、意味的ギャップを埋めるように設計されている。
これら2つのメカニズムの相乗効果はモデルの一般化能力を大幅に向上させる。
本手法は,複数の領域の一般化ベンチマークにおいて,既存のSOTA手法よりも常に優れていることを示す。
関連論文リスト
- Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - Dual-modal Prior Semantic Guided Infrared and Visible Image Fusion for Intelligent Transportation System [22.331591533400402]
インテリジェントトランスポートシステム(ITS)における赤外線および可視画像融合(IVF)の役割
本稿では,2つのモーダリティ戦略に基づく先行的意味誘導画像融合法を提案する。
論文 参考訳(メタデータ) (2024-03-24T16:41:50Z) - Enhancing Multimodal Unified Representations for Cross Modal Generalization [52.16653133604068]
我々は、コードブック(TOC)のトレーニング不要最適化と、FCID(Fin and Coarse Cross-modal Information Disentangling)を提案する。
これらの方法は、各モードの特定の特性に合わせて、事前学習から統一された離散表現を洗練し、きめ細かな情報と粗い情報の絡み合わせを行う。
論文 参考訳(メタデータ) (2024-03-08T09:16:47Z) - On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。
我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - Harmonized Spatial and Spectral Learning for Robust and Generalized Medical Image Segmentation [5.3590650005818254]
我々は、中級特徴と文脈的長距離依存を捉えるためのモデル能力を改善するために、革新的なスペクトル相関係数の目的を導入する。
実験によると、UNetやTransUNetのような既存のアーキテクチャでこの目的を最適化することで、一般化、解釈可能性、ノイズの堅牢性が大幅に向上する。
論文 参考訳(メタデータ) (2024-01-18T20:43:43Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。