論文の概要: TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2512.21135v1
- Date: Wed, 24 Dec 2025 12:06:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.777007
- Title: TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation
- Title(参考訳): TGC-Net: テキストガイドによる医用画像分割のための構造認識とセマンティックアライズドフレームワーク
- Authors: Gaoren Lin, Huangxuan Zhao, Yuan Xiong, Lefei Zhang, Bo Du, Wentao Zhu,
- Abstract要約: 本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 56.09179939570486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided medical segmentation enhances segmentation accuracy by utilizing clinical reports as auxiliary information. However, existing methods typically rely on unaligned image and text encoders, which necessitate complex interaction modules for multimodal fusion. While CLIP provides a pre-aligned multimodal feature space, its direct application to medical imaging is limited by three main issues: insufficient preservation of fine-grained anatomical structures, inadequate modeling of complex clinical descriptions, and domain-specific semantic misalignment. To tackle these challenges, we propose TGC-Net, a CLIP-based framework focusing on parameter-efficient, task-specific adaptations. Specifically, it incorporates a Semantic-Structural Synergy Encoder (SSE) that augments CLIP's ViT with a CNN branch for multi-scale structural refinement, a Domain-Augmented Text Encoder (DATE) that injects large-language-model-derived medical knowledge, and a Vision-Language Calibration Module (VLCM) that refines cross-modal correspondence in a unified feature space. Experiments on five datasets across chest X-ray and thoracic CT modalities demonstrate that TGC-Net achieves state-of-the-art performance with substantially fewer trainable parameters, including notable Dice gains on challenging benchmarks.
- Abstract(参考訳): テキスト誘導医療セグメント化は、臨床報告を補助情報として活用することにより、セグメンテーションの精度を高める。
しかし、既存の手法は通常、マルチモーダル融合のために複雑な相互作用モジュールを必要とする不整合画像とテキストエンコーダに依存している。
CLIPは、予め整列されたマルチモーダルな特徴空間を提供するが、医療画像への直接的な適用は、微細な解剖学的構造の保存が不十分なこと、複雑な臨床的記述の不十分なモデリング、ドメイン固有の意味的ミスアライメントの3つの主要な問題によって制限されている。
これらの課題に対処するために,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
具体的には、CLIPのViTをマルチスケール構造改善のためのCNNブランチで拡張するSemantic-Structural Synergy Encoder (SSE)、大規模な言語モデル由来の医療知識を注入するDomain-Augmented Text Encoder (DATE)、統一された特徴空間におけるクロスモーダル対応を洗練するVision-Language Calibration Module (VLCM)を含む。
胸部X線および胸部CTモダリティにまたがる5つのデータセットの実験により、TGC-Netはトレーニング可能なパラメータを著しく少なく、最先端のパフォーマンスを達成することが示された。
関連論文リスト
- DTEA: Dynamic Topology Weaving and Instability-Driven Entropic Attenuation for Medical Image Segmentation [31.50032207382483]
スキップ接続は、グローバルコンテキストをマージし、エンコーダとデコーダのセマンティックギャップを減らすために使用される。
本稿では,セマンティックトポロジ再構成(STR)とエントロピー摂動ゲーティング(EPG)モジュールを用いた新しいスキップ接続フレームワークを特徴とするDTEAモデルを提案する。
論文 参考訳(メタデータ) (2025-10-13T10:50:41Z) - Multimodal Causal-Driven Representation Learning for Generalizable Medical Image Segmentation [56.52520416420957]
医用画像セグメンテーションにおける領域一般化に取り組むために, MCDRL(Multimodal Causal-Driven Representation Learning)を提案する。
MCDRLは競合する手法より一貫して優れ、セグメンテーション精度が優れ、堅牢な一般化性を示す。
論文 参考訳(メタデータ) (2025-08-07T03:41:41Z) - CDPDNet: Integrating Text Guidance with Hybrid Vision Encoders for Medical Image Segmentation [8.56773843063124]
ほとんどの医用セグメンテーションデータセットは部分的にラベル付けされているだけである。
本研究では,CLIP-DINO Prompt-Driven Network (CDPDNet)を提案する。
CDPDNetは、セルフ教師付きビジョントランスフォーマーとCLIPベースのテキスト埋め込みを組み合わせることで、これらの課題に対処するためにタスク固有のテキストプロンプトを導入している。
論文 参考訳(メタデータ) (2025-05-25T03:23:58Z) - CENet: Context Enhancement Network for Medical Image Segmentation [3.4690322157094573]
本稿では,2つの重要なイノベーションを特徴とする新しいセグメンテーションフレームワークであるCENetを提案する。
まず、スキップ接続に統合されたDual Selective Enhancement Block(DSEB)は境界の詳細を高め、コンテキスト対応で小さな臓器の検出を改善する。
第二に、デコーダのContext Feature Attention Module (CFAM)は、空間的整合性を維持し、特徴の冗長性を低減し、過剰に拡張された表現を緩和するために、マルチスケールの設計を採用している。
論文 参考訳(メタデータ) (2025-05-23T23:22:18Z) - MulModSeg: Enhancing Unpaired Multi-Modal Medical Image Segmentation with Modality-Conditioned Text Embedding and Alternating Training [10.558275557142137]
マルチモーダル(MulModSeg)戦略を提案する。
MulModSegは、凍結されたテキストエンコーダを介して、モダリティ条件付きテキスト埋め込みフレームワークを組み込んでいる。
腹部多臓器および心室サブ構造をCTとMRの両方で分画する従来の方法より一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-23T14:37:01Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - BCS-Net: Boundary, Context and Semantic for Automatic COVID-19 Lung
Infection Segmentation from CT Images [83.82141604007899]
BCS-Netは、CT画像から自動的に新型コロナウイルスの肺感染症を分離するための新しいネットワークである。
BCS-Netはエンコーダ-デコーダアーキテクチャに従っており、多くの設計はデコーダのステージに焦点を当てている。
BCSRブロックでは、アテンション誘導グローバルコンテキスト(AGGC)モジュールがデコーダの最も価値のあるエンコーダ機能を学ぶように設計されている。
論文 参考訳(メタデータ) (2022-07-17T08:54:07Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。