論文の概要: SwinTextUNet: Integrating CLIP-Based Text Guidance into Swin Transformer U-Nets for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2604.10000v1
- Date: Sat, 11 Apr 2026 03:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.789047
- Title: SwinTextUNet: Integrating CLIP-Based Text Guidance into Swin Transformer U-Nets for Medical Image Segmentation
- Title(参考訳): SwinTextUNet:医療画像セグメンテーションのためのCLIPベースのテキストガイダンスをSwin Transformer U-Netに統合
- Authors: Ashfak Yeafi, Parthaw Goswami, Md Khairul Islam, Ashifa Islam Shamme,
- Abstract要約: CLIP(Contrastive Language Image Pretraining)を組み込んだマルチモーダルセグメンテーションフレームワークであるSwinTextUNetを紹介する。
クロスアテンションと畳み込み融合を統合することで、モデルはセマンティックテキストガイダンスと階層的な視覚表現を効果的に整合させる。
提案手法は,QaTaCOV19データセットにおいて,提案した4段階のモデルを用いて,性能と複雑性の最適なバランスを実現する。
- 参考スコア(独自算出の注目度): 3.464871689508836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise medical image segmentation is fundamental for enabling computer aided diagnosis and effective treatment planning. Traditional models that rely solely on visual features often struggle when confronted with ambiguous or low contrast patterns. To overcome these limitations, we introduce SwinTextUNet, a multimodal segmentation framework that incorporates Contrastive Language Image Pretraining (CLIP), derived textual embeddings into a Swin Transformer UNet backbone. By integrating cross attention and convolutional fusion, the model effectively aligns semantic text guidance with hierarchical visual representations, enhancing robustness and accuracy. We evaluate our approach on the QaTaCOV19 dataset, where the proposed four stage variant achieves an optimal balance between performance and complexity, yielding Dice and IoU scores of 86.47% and 78.2%, respectively. Ablation studies further validate the importance of text guidance and multimodal fusion. These findings underscore the promise of vision language integration in advancing medical image segmentation and supporting clinically meaningful diagnostic tools.
- Abstract(参考訳): 精密な医用画像分割はコンピュータ支援診断と効果的な治療計画の実現に不可欠である。
視覚的特徴にのみ依存する伝統的なモデルは、あいまいなパターンや低いコントラストパターンに直面すると、しばしば苦労する。
これらの制限を克服するために,コントラスト言語イメージ事前学習(CLIP)を組み込んだマルチモーダルセグメンテーションフレームワークであるSwinTextUNetを紹介した。
クロスアテンションと畳み込み融合を統合することで、セマンティックテキストガイダンスを階層的な視覚表現と効果的に整合させ、堅牢性と精度を向上させる。
QaTaCOV19データセットに対する我々のアプローチを評価し、提案した4つのステージ変種は、それぞれ86.47%と78.2%のDiceとIoUのスコアを得る、パフォーマンスと複雑性の最適なバランスを達成する。
アブレーション研究は、テキストガイダンスとマルチモーダル融合の重要性をさらに検証している。
これらの知見は、医用画像のセグメンテーションを推進し、臨床的に有意義な診断ツールをサポートするためのビジョン言語統合の可能性を浮き彫りにした。
関連論文リスト
- BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation [3.7276397365086233]
BiCLIPは、医療セグメンテーションの堅牢性を高めるために設計されたフレームワークである。
双方向のマルチモーダル融合機構を備えており、視覚的特徴によってテキスト表現を反復的に洗練することができる。
運動のぼやけや低用量CTノイズなど、臨床的アーティファクトに対する大きな耐性を示す。
論文 参考訳(メタデータ) (2026-02-25T18:11:47Z) - MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation [8.913012426353154]
MedCLIPSegは、CLIPを堅牢で、データ効率が高く、不確実性を認識した医療画像セグメンテーションに適応する新しいフレームワークである。
提案手法では,確率的クロスモーダルアテンションによるパッチレベルのCLIP埋め込みを活用し,画像とテキストトークン間の双方向インタラクションを実現する。
論文 参考訳(メタデータ) (2026-02-23T23:46:05Z) - TGC-Net: A Structure-Aware and Semantically-Aligned Framework for Text-Guided Medical Image Segmentation [56.09179939570486]
本稿では,パラメータ効率,タスク固有適応に着目したCLIPベースのフレームワークであるTGC-Netを提案する。
TGC-Netは、挑戦的なベンチマークで顕著なDiceゲインを含む、トレーニング可能なパラメータをかなり少なくして、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-24T12:06:26Z) - Plasticine: A Traceable Diffusion Model for Medical Image Translation [79.39689106440389]
我々は、私たちの知る限り、トレーサビリティを主目的として明示的に設計された最初のエンドツーエンド画像変換フレームワークであるPlasticineを提案する。
本手法は,デノナイジング拡散フレームワーク内での強度変換と空間変換を組み合わせた手法である。
この設計により、解釈可能な強度遷移と空間的コヒーレントな変形を持つ合成画像の生成が可能となり、翻訳プロセス全体を通してピクセルワイドトレーサビリティをサポートする。
論文 参考訳(メタデータ) (2025-12-20T18:01:57Z) - Alleviating Textual Reliance in Medical Language-guided Segmentation via Prototype-driven Semantic Approximation [11.540847583052381]
ProLearnは、言語誘導セグメンテーションのためのプロトタイプ駆動学習フレームワークである。
テキスト入力からのセマンティックガイダンスの近似を可能にする新しいプロトタイプ駆動セマンティック近似(PSA)モジュールを提案する。
ProLearnは、制限されたテキストが利用できる場合、最先端の言語誘導メソッドより優れている。
論文 参考訳(メタデータ) (2025-07-15T07:38:49Z) - From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [48.45209969191245]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文 参考訳(メタデータ) (2025-04-15T16:32:15Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。