論文の概要: STPNet: Scale-aware Text Prompt Network for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2504.01561v1
- Date: Wed, 02 Apr 2025 10:01:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:19:33.741070
- Title: STPNet: Scale-aware Text Prompt Network for Medical Image Segmentation
- Title(参考訳): STPNet:医療画像セグメンテーションのためのスケール対応テキストプロンプトネットワーク
- Authors: Dandan Shan, Zihan Li, Yunxiang Li, Qingde Li, Jie Tian, Qingqi Hong,
- Abstract要約: 医用画像のセグメンテーションを強化するために視覚認識モデリングを利用するスケール言語テキストプロンプトネットワークを提案する。
本手法では, 病変の局所化を誘導するために多スケールテキスト記述を用い, 検索・分節共同学習を採用している。
我々は、COVID-Xray、COVID-CT、Kvasir-SEGの3つのデータセットに対するビジョン言語アプローチを評価した。
- 参考スコア(独自算出の注目度): 8.812162673772459
- License:
- Abstract: Accurate segmentation of lesions plays a critical role in medical image analysis and diagnosis. Traditional segmentation approaches that rely solely on visual features often struggle with the inherent uncertainty in lesion distribution and size. To address these issues, we propose STPNet, a Scale-aware Text Prompt Network that leverages vision-language modeling to enhance medical image segmentation. Our approach utilizes multi-scale textual descriptions to guide lesion localization and employs retrieval-segmentation joint learning to bridge the semantic gap between visual and linguistic modalities. Crucially, STPNet retrieves relevant textual information from a specialized medical text repository during training, eliminating the need for text input during inference while retaining the benefits of cross-modal learning. We evaluate STPNet on three datasets: COVID-Xray, COVID-CT, and Kvasir-SEG. Experimental results show that our vision-language approach outperforms state-of-the-art segmentation methods, demonstrating the effectiveness of incorporating textual semantic knowledge into medical image analysis. The code has been made publicly on https://github.com/HUANGLIZI/STPNet.
- Abstract(参考訳): 病変の正確なセグメンテーションは、医学的画像解析と診断において重要な役割を担っている。
視覚的特徴にのみ依存する従来のセグメンテーションアプローチは、病変の分布と大きさに固有の不確実性に悩まされることが多い。
これらの課題に対処するために,医用画像のセグメンテーションを強化するために視覚言語モデリングを活用したスケール対応テキストプロンプトネットワークであるSTPNetを提案する。
本手法では,多段階のテキスト記述を用いて病変の局所化を導出し,視覚と言語間の意味的ギャップを埋めるために,検索・分節共同学習を用いる。
重要なことは、STPNetは、トレーニング中に専門の医療用テキストリポジトリから関連するテキスト情報を検索し、クロスモーダル学習の利点を維持しながら、推論中のテキスト入力を不要にする。
我々は、COVID-Xray、COVID-CT、Kvasir-SEGの3つのデータセットでSTPNetを評価した。
実験の結果,我々の視覚言語アプローチは最先端のセグメンテーション手法よりも優れており,医用画像解析にテキスト意味知識を組み込むことの有効性が示された。
コードはhttps://github.com/HUANGLIZI/STPNet.comで公開されている。
関連論文リスト
- Language-guided Medical Image Segmentation with Target-informed Multi-level Contrastive Alignments [7.9714765680840625]
ターゲット型マルチレベルコントラストアライメント(TMCA)を用いた言語誘導セグメンテーションネットワークを提案する。
TMCAは、言語誘導セグメンテーションにおけるパターンギャップを橋渡しするために、ターゲット・インフォームド・クロスモダリティアライメントときめ細かいテキストガイダンスを可能にする。
論文 参考訳(メタデータ) (2024-12-18T06:19:03Z) - LSMS: Language-guided Scale-aware MedSegmentor for Medical Image Referring Segmentation [7.912408164613206]
医用画像参照(MIRS)は、与えられた言語表現に基づく画像の断片化を必要とする。
LSMS(Language-guided Scale-Aware MedSegmentor)というアプローチを提案する。
LSMSは計算コストが低いすべてのデータセットで一貫してパフォーマンスが向上します。
論文 参考訳(メタデータ) (2024-08-30T15:22:13Z) - PathAlign: A vision-language model for whole slide images in histopathology [13.567674461880905]
We developed a vision- language model based on the BLIP-2 framework using WSIs and curated text from pathology reports。
これにより、関心のある事例を見つけるために、テキストや画像検索などの共有画像テキスト埋め込みスペースを利用することができる。
本稿では、WSI埋め込みを用いたテキスト生成とテキスト検索の病理学評価と、WSI分類とワークフロー優先順位付けの結果について述べる。
論文 参考訳(メタデータ) (2024-06-27T23:43:36Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - CPSeg: Finer-grained Image Semantic Segmentation via Chain-of-Thought
Language Prompting [8.12405696290333]
CPSegは、新しいChain-of-Thoughtプロセスを統合することで、画像セグメンテーションのパフォーマンスを向上させるように設計されたフレームワークである。
我々は、画像、セマンティックマスク、および対応するテキスト情報を含む新しい視覚言語データセット、FloodPromptを提案する。
論文 参考訳(メタデータ) (2023-10-24T13:32:32Z) - Self-Supervised Correction Learning for Semi-Supervised Biomedical Image
Segmentation [84.58210297703714]
半教師付きバイオメディカルイメージセグメンテーションのための自己教師付き補正学習パラダイムを提案する。
共有エンコーダと2つの独立デコーダを含むデュアルタスクネットワークを設計する。
異なるタスクのための3つの医用画像分割データセットの実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-01-12T08:19:46Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Cross-level Contrastive Learning and Consistency Constraint for
Semi-supervised Medical Image Segmentation [46.678279106837294]
半教師型医用画像セグメンテーションにおける局所特徴の表現能力を高めるためのクロスレベルコンストラシティブ学習手法を提案する。
クロスレベルなコントラスト学習と一貫性制約の助けを借りて、非ラベル付きデータを効果的に探索してセグメンテーション性能を向上させることができる。
論文 参考訳(メタデータ) (2022-02-08T15:12:11Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Few-shot Medical Image Segmentation using a Global Correlation Network
with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。
深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。
深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文 参考訳(メタデータ) (2020-12-10T04:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。