Fugu-MT 論文翻訳(概要): SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues

論文の概要: SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues

arxiv url: http://arxiv.org/abs/2406.19364v1
Date: Thu, 27 Jun 2024 17:46:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 13:18:46.360544
Title: SimTxtSeg: Weakly-Supervised Medical Image Segmentation with Simple Text Cues
Title（参考訳）: SimTxtSeg: シンプルテキストキューによる医療画像の断片化
Authors: Yuxin Xie, Tao Zhou, Yi Zhou, Geng Chen,
Abstract要約: 我々は、単純なテキストキューを利用して高品質な擬似ラベルを生成する新しいフレームワーク、SimTxtSegを提案する。大腸ポリープ・セグメンテーションとMRI脳腫瘍セグメンテーションという2つの医療画像セグメンテーションの枠組みについて検討した。
参考スコア（独自算出の注目度）: 11.856041847833666
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weakly-supervised medical image segmentation is a challenging task that aims to reduce the annotation cost while keep the segmentation performance. In this paper, we present a novel framework, SimTxtSeg, that leverages simple text cues to generate high-quality pseudo-labels and study the cross-modal fusion in training segmentation models, simultaneously. Our contribution consists of two key components: an effective Textual-to-Visual Cue Converter that produces visual prompts from text prompts on medical images, and a text-guided segmentation model with Text-Vision Hybrid Attention that fuses text and image features. We evaluate our framework on two medical image segmentation tasks: colonic polyp segmentation and MRI brain tumor segmentation, and achieve consistent state-of-the-art performance.
Abstract（参考訳）: 重度管理された医用画像のセグメンテーションは、セグメンテーション性能を維持しつつ、アノテーションコストを削減することを目的とした課題である。本稿では,単純なテキストキューを活用して高品質な擬似ラベルを生成する新しいフレームワーク,SimTxtSegを提案し,訓練セグメンテーションモデルにおけるクロスモーダル融合を同時に研究する。提案するコントリビューションは,医用画像上のテキストプロンプトから視覚的プロンプトを生成するテキスト・ツー・ビジュアル・キュー・コンバータと,テキストと画像の特徴を融合したテキスト・ビジョン・ハイブリッド・アテンションを用いたテキスト誘導セグメンテーション・モデルである。我々は,大腸ポリープ・セグメンテーションとMRI脳腫瘍セグメンテーションという2つの医療画像セグメンテーションの枠組みを評価し,一貫した最先端性能を実現する。

関連論文リスト

Enhancing Multimodal Misinformation Detection by Replaying the Whole Story from Image Modality Perspective [23.51937497342985]
MMD(Multimodal Misinformation Detection)は、誤情報を含むソーシャルメディアの投稿を検知するタスクである。本稿では,RETSIMDという新しいMDD手法を提案する。具体的には,各テキストを複数のセグメントに分割し,各テキストセグメントが画像で表現できる部分シーンを記述する。さらに、テキスト画像と画像ラベルの相互情報に関する2つの補助的目的を取り入れ、補助的なテキスト画像生成ベンチマークデータセット上でジェネレータを訓練する。
論文参考訳（メタデータ） (2025-11-09T08:37:46Z)
A Text-Image Fusion Method with Data Augmentation Capabilities for Referring Medical Image Segmentation [17.625772619688913]
最近のマルチモーダル学習は、参照またはテキスト誘導画像セグメンテーションとして知られるセグメンテーションのためのテキストとイメージを統合する。本稿では,拡張前のテキストと視覚的特徴を組み合わせた早期融合フレームワークを提案する。本手法は,3つの医用画像タスクと4つのセグメンテーション・フレームワークを用いて評価し,最先端の結果を得た。
論文参考訳（メタデータ） (2025-10-14T13:18:34Z)
Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文参考訳（メタデータ） (2025-09-08T04:07:14Z)
Text-driven Multiplanar Visual Interaction for Semi-supervised Medical Image Segmentation [48.76848912120607]
半教師付き医用画像セグメンテーションは,高コストなデータアノテーションを緩和するための重要な手法である。半教師型医用画像セグメンテーションのための新しいテキスト駆動型多面的視覚インタラクションフレームワーク(Termed Text-SemiSeg)を提案する。我々のフレームワークは3つの主要なモジュールで構成されている。テキスト強化多平面表現(TMR)、カテゴリー認識セマンティックアライメント(CSA)、動的認知強化(DCA)である。
論文参考訳（メタデータ） (2025-07-16T16:29:30Z)
Multimodal Medical Image Binding via Shared Text Embeddings [15.873810726442603]
Multimodal Medical Image Binding with Text (Mtextsuperscript3Bind)は、医用画像モダリティのシームレスなアライメントを可能にする新しい事前トレーニングフレームワークである。 Mtextsuperscript3Bindの最初の微調整CLIPライクなイメージテキストモデルは、そのモダリティ固有のテキスト埋め込みスペースを調整する。 Mtextsuperscript3Bindは、ゼロショット、少数ショット分類およびクロスモーダル検索タスクにおいて、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-06-22T15:39:25Z)
Organ-aware Multi-scale Medical Image Segmentation Using Text Prompt Engineering [17.273290949721975]
既存の医用画像分割法は、画像やビデオなどの一様視覚入力に依存しており、労働集約的な手動アノテーションを必要とする。医用イメージング技術は、単一のスキャン内で複数の絡み合った臓器をキャプチャし、セグメンテーションの精度をさらに複雑にする。これらの課題に対処するため、MedSAMは画像特徴とユーザが提供するプロンプトを統合することでセグメンテーションの精度を高めるために開発された。
論文参考訳（メタデータ） (2025-03-18T01:35:34Z)
Text-Promptable Propagation for Referring Medical Image Sequence Segmentation [20.724643106195852]
Ref-MISSは、自然言語の記述に基づいて、医学画像の配列に解剖学的構造を分割することを目的としている。既存の2Dおよび3Dセグメンテーションモデルは、医用画像のシーケンスを通して興味のあるオブジェクトを明示的に追跡するのに苦労する。医用画像のシーケンスセグメンテーションを参照するためのモデルとして,テキスト・プロンプタブル・プロパゲーション(TPP)を提案する。
論文参考訳（メタデータ） (2025-02-16T12:13:11Z)
Text4Seg: Reimagining Image Segmentation as Text Generation [32.230379277018194]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムであるText4Segを紹介する。セマンティックディスクリプタは、各イメージパッチを対応するテキストラベルにマッピングするセグメンテーションマスクの新しいテキスト表現である。 MLLMのバックボーンを微調整することで,Text4Segが複数のデータセット上で最先端のパフォーマンスを実現することを示す。
論文参考訳（メタデータ） (2024-10-13T14:28:16Z)
Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation [28.24883865053459]
本稿では,高密度アノテーションを伴わない画像テキストペアのみを用いて,画像内の任意の視覚概念をセグメント化できるモデルを学習することを目的とする。既存の手法では、画像とテキストのペアにおけるコントラスト学習が、視覚セグメントとテキストの意味を効果的に一致させることが示されている。テキストはしばしば複数の意味概念で構成され、セマンティックセグメンテーションは意味的に同質なセグメンテーションを作成する。
論文参考訳（メタデータ） (2024-04-05T17:25:17Z)
ScribblePrompt: Fast and Flexible Interactive Segmentation for Any Biomedical Image [4.076537350106898]
本稿では,バイオメディカルイメージングのためのフレキシブルニューラルネットワークを用いたインタラクティブセグメンテーションツールであるemphScribblePromptを紹介する。ドメインの専門家によるユーザスタディでは、ScribblePromptはアノテーションの時間を28%削減し、Diceを15%改善した。インタラクティブなデモでScribblePromptを紹介し、コードを提供し、https://scribbleprompt.csail.mit.eduでscribbleアノテーションのデータセットをリリースします。
論文参考訳（メタデータ） (2023-12-12T15:57:03Z)
Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文参考訳（メタデータ） (2023-04-13T17:59:40Z)
Increasing Textual Context Size Boosts Medical Image-Text Matching [7.39915548392375]
我々は、一般的な画像テキストマッチングモデルであるOpenAIのCLIPの使用を分析し、CLIPの限られたテキスト入力サイズが下流のパフォーマンスに悪影響を与えることを観察する。そこで我々は,テキストキャプションをエンコードするシンプルなスライディングウインドウ技術を用いて,ClipMDを訓練・リリースする。その結果、ClipMDは両方のデータセット上の他のモデルよりも大きなマージンで優れていることがわかった。
論文参考訳（メタデータ） (2023-03-23T15:20:05Z)
Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。 PTUnifier という2つのタイプを統一する手法を提案する。まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文参考訳（メタデータ） (2023-02-17T15:43:42Z)
ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文参考訳（メタデータ） (2023-01-31T01:57:52Z)
Self-Supervised Correction Learning for Semi-Supervised Biomedical Image Segmentation [84.58210297703714]
半教師付きバイオメディカルイメージセグメンテーションのための自己教師付き補正学習パラダイムを提案する。共有エンコーダと2つの独立デコーダを含むデュアルタスクネットワークを設計する。異なるタスクのための3つの医用画像分割データセットの実験により,本手法の優れた性能が示された。
論文参考訳（メタデータ） (2023-01-12T08:19:46Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
Semantic Segmentation with Generative Models: Semi-Supervised Learning and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文参考訳（メタデータ） (2021-04-12T21:41:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。