論文の概要: Text-driven Multiplanar Visual Interaction for Semi-supervised Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2507.12382v1
- Date: Wed, 16 Jul 2025 16:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.470569
- Title: Text-driven Multiplanar Visual Interaction for Semi-supervised Medical Image Segmentation
- Title(参考訳): 半教師型医用画像分割のためのテキスト駆動型多平面視覚インタラクション
- Authors: Kaiwen Huang, Yi Zhou, Huazhu Fu, Yizhe Zhang, Chen Gong, Tao Zhou,
- Abstract要約: 半教師付き医用画像セグメンテーションは,高コストなデータアノテーションを緩和するための重要な手法である。
半教師型医用画像セグメンテーションのための新しいテキスト駆動型多面的視覚インタラクションフレームワーク(Termed Text-SemiSeg)を提案する。
我々のフレームワークは3つの主要なモジュールで構成されている。テキスト強化多平面表現(TMR)、カテゴリー認識セマンティックアライメント(CSA)、動的認知強化(DCA)である。
- 参考スコア(独自算出の注目度): 48.76848912120607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised medical image segmentation is a crucial technique for alleviating the high cost of data annotation. When labeled data is limited, textual information can provide additional context to enhance visual semantic understanding. However, research exploring the use of textual data to enhance visual semantic embeddings in 3D medical imaging tasks remains scarce. In this paper, we propose a novel text-driven multiplanar visual interaction framework for semi-supervised medical image segmentation (termed Text-SemiSeg), which consists of three main modules: Text-enhanced Multiplanar Representation (TMR), Category-aware Semantic Alignment (CSA), and Dynamic Cognitive Augmentation (DCA). Specifically, TMR facilitates text-visual interaction through planar mapping, thereby enhancing the category awareness of visual features. CSA performs cross-modal semantic alignment between the text features with introduced learnable variables and the intermediate layer of visual features. DCA reduces the distribution discrepancy between labeled and unlabeled data through their interaction, thus improving the model's robustness. Finally, experiments on three public datasets demonstrate that our model effectively enhances visual features with textual information and outperforms other methods. Our code is available at https://github.com/taozh2017/Text-SemiSeg.
- Abstract(参考訳): 半教師付き医用画像セグメンテーションは,高コストなデータアノテーションを緩和するための重要な手法である。
ラベル付きデータが制限されている場合、テキスト情報は視覚的意味理解を強化するための追加のコンテキストを提供することができる。
しかし、3次元医用画像タスクにおける視覚的セマンティック埋め込みを強化するためのテキストデータの利用を探求する研究はほとんどない。
本稿では,テキスト強調多平面表現(TMR),カテゴリー認識セマンティックアライメント(CSA),動的認知拡張(DCA)の3つの主要モジュールからなる,半教師付き医用画像セグメンテーションのための新しいテキスト駆動多平面視覚インタラクションフレームワークを提案する。
具体的には、平面マッピングによるテキストと視覚の相互作用を促進し、視覚的特徴のカテゴリー認識を高める。
CSAは、学習可能な変数を導入したテキスト特徴と、視覚的特徴の中間層との間の相互意味的アライメントを実行する。
DCAはラベル付きデータとラベルなしデータとの相互作用による分散の相違を低減し、モデルの堅牢性を向上させる。
最後に、3つの公開データセットに対する実験により、我々のモデルはテキスト情報による視覚的特徴を効果的に強化し、他の手法よりも優れていることを示した。
私たちのコードはhttps://github.com/taozh2017/Text-SemiSeg.comで入手可能です。
関連論文リスト
- TeSG: Textual Semantic Guidance for Infrared and Visible Image Fusion [55.34830989105704]
Infrared and visible image fusion (IVF) は、画像モダリティの相補的な情報を組み合わせることを目的としている。
テキスト意味論は,マスクの意味レベルとテキスト意味レベルという2つのレベルで導入する。
画像合成プロセスのガイドとなる赤外線・可視画像融合のためのテクスチュアル・セマンティック・ガイダンスを提案する。
論文 参考訳(メタデータ) (2025-06-20T03:53:07Z) - TextDiffSeg: Text-guided Latent Diffusion Model for 3d Medical Images Segmentation [0.0]
テキスト誘導拡散モデルフレームワークであるTextDiffSegは、3Dボリュームデータを自然言語記述と統合する。
複雑な解剖構造を認識するモデルの能力を高めることで、TextDiffSegは革新的なラベル埋め込み技術を取り入れている。
実験の結果、TextDiffSegは腎臓と膵腫瘍を含む分節作業において、既存の方法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-04-16T07:17:36Z) - BiPVL-Seg: Bidirectional Progressive Vision-Language Fusion with Global-Local Alignment for Medical Image Segmentation [9.262045402495225]
BiPVL-Segは、視覚言語融合と埋め込みアライメントを統合するエンドツーエンドフレームワークである。
BiPVL-Segはアーキテクチャにプログレッシブ融合を導入し、視覚とテキストエンコーダの段階的な情報交換を容易にする。
これは、クラスレベルと概念レベルの両方でテキストと視覚の埋め込みをアライメントすることで、テキストエンコーダの理解を高める訓練目的である。
論文 参考訳(メタデータ) (2025-03-30T17:34:39Z) - Embedding and Enriching Explicit Semantics for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-infrared person re-identification (VIReID)は、異なるモードで同じ同一の歩行者画像を取得する。
既存の方法は画像のみから視覚的コンテンツを学習するが、高レベルの意味を感知する能力は欠如している。
本稿では,意味的にリッチな横断歩行者表現を学習するための埋め込み・拡張型明示的意味論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T14:27:30Z) - A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。