論文の概要: SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues
- arxiv url: http://arxiv.org/abs/2406.19364v2
- Date: Fri, 28 Jun 2024 05:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 10:50:27.690804
- Title: SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues
- Title(参考訳): SimTxtSeg: シンプルテキストキューによる医療画像の断片化
- Authors: Yuxin Xie, Tao Zhou, Yi Zhou, Geng Chen,
- Abstract要約: 我々は、単純なテキストキューを利用して高品質な擬似ラベルを生成する新しいフレームワーク、SimTxtSegを提案する。
大腸ポリープ・セグメンテーションとMRI脳腫瘍セグメンテーションという2つの医療画像セグメンテーションの枠組みについて検討した。
- 参考スコア(独自算出の注目度): 11.856041847833666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised medical image segmentation is a challenging task that aims to reduce the annotation cost while keep the segmentation performance. In this paper, we present a novel framework, SimTxtSeg, that leverages simple text cues to generate high-quality pseudo-labels and study the cross-modal fusion in training segmentation models, simultaneously. Our contribution consists of two key components: an effective Textual-to-Visual Cue Converter that produces visual prompts from text prompts on medical images, and a text-guided segmentation model with Text-Vision Hybrid Attention that fuses text and image features. We evaluate our framework on two medical image segmentation tasks: colonic polyp segmentation and MRI brain tumor segmentation, and achieve consistent state-of-the-art performance.
- Abstract(参考訳): 重度管理された医用画像のセグメンテーションは、セグメンテーション性能を維持しつつ、アノテーションコストを削減することを目的とした課題である。
本稿では,単純なテキストキューを活用して高品質な擬似ラベルを生成する新しいフレームワーク,SimTxtSegを提案し,訓練セグメンテーションモデルにおけるクロスモーダル融合を同時に研究する。
提案するコントリビューションは,医用画像上のテキストプロンプトから視覚的プロンプトを生成するテキスト・ツー・ビジュアル・キュー・コンバータと,テキストと画像の特徴を融合したテキスト・ビジョン・ハイブリッド・アテンションを用いたテキスト誘導セグメンテーション・モデルである。
我々は,大腸ポリープ・セグメンテーションとMRI脳腫瘍セグメンテーションという2つの医療画像セグメンテーションの枠組みを評価し,一貫した最先端性能を実現する。
関連論文リスト
- Text4Seg: Reimagining Image Segmentation as Text Generation [32.230379277018194]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムであるText4Segを紹介する。
セマンティックディスクリプタは、各イメージパッチを対応するテキストラベルにマッピングするセグメンテーションマスクの新しいテキスト表現である。
MLLMのバックボーンを微調整することで,Text4Segが複数のデータセット上で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-10-13T14:28:16Z) - Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation [28.24883865053459]
本稿では,高密度アノテーションを伴わない画像テキストペアのみを用いて,画像内の任意の視覚概念をセグメント化できるモデルを学習することを目的とする。
既存の手法では、画像とテキストのペアにおけるコントラスト学習が、視覚セグメントとテキストの意味を効果的に一致させることが示されている。
テキストはしばしば複数の意味概念で構成され、セマンティックセグメンテーションは意味的に同質なセグメンテーションを作成する。
論文 参考訳(メタデータ) (2024-04-05T17:25:17Z) - ScribblePrompt: Fast and Flexible Interactive Segmentation for Any Biomedical Image [4.076537350106898]
本稿では,バイオメディカルイメージングのためのフレキシブルニューラルネットワークを用いたインタラクティブセグメンテーションツールであるemphScribblePromptを紹介する。
ドメインの専門家によるユーザスタディでは、ScribblePromptはアノテーションの時間を28%削減し、Diceを15%改善した。
インタラクティブなデモでScribblePromptを紹介し、コードを提供し、https://scribbleprompt.csail.mit.eduでscribbleアノテーションのデータセットをリリースします。
論文 参考訳(メタデータ) (2023-12-12T15:57:03Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - Increasing Textual Context Size Boosts Medical Image-Text Matching [7.39915548392375]
我々は、一般的な画像テキストマッチングモデルであるOpenAIのCLIPの使用を分析し、CLIPの限られたテキスト入力サイズが下流のパフォーマンスに悪影響を与えることを観察する。
そこで我々は,テキストキャプションをエンコードするシンプルなスライディングウインドウ技術を用いて,ClipMDを訓練・リリースする。
その結果、ClipMDは両方のデータセット上の他のモデルよりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-23T15:20:05Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Self-Supervised Correction Learning for Semi-Supervised Biomedical Image
Segmentation [84.58210297703714]
半教師付きバイオメディカルイメージセグメンテーションのための自己教師付き補正学習パラダイムを提案する。
共有エンコーダと2つの独立デコーダを含むデュアルタスクネットワークを設計する。
異なるタスクのための3つの医用画像分割データセットの実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-01-12T08:19:46Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。