Fugu-MT 論文翻訳(概要): Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models

論文の概要: Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models

arxiv url: http://arxiv.org/abs/2407.05323v1
Date: Sun, 7 Jul 2024 10:21:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-09 20:17:13.039619
Title: Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models
Title（参考訳）: テキスト誘導拡散モデルによるラベル効率の良い医用画像分割の実現
Authors: Chun-Mei Feng,
Abstract要約: TextDiffは、安価な医療用テキストアノテーションを通じて意味表現を改善する。その結果,TextDiffは,少数のトレーニングサンプルのみで,最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることがわかった。
参考スコア（独自算出の注目度）: 5.865983529245793
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Aside from offering state-of-the-art performance in medical image generation, denoising diffusion probabilistic models (DPM) can also serve as a representation learner to capture semantic information and potentially be used as an image representation for downstream tasks, e.g., segmentation. However, these latent semantic representations rely heavily on labor-intensive pixel-level annotations as supervision, limiting the usability of DPM in medical image segmentation. To address this limitation, we propose an enhanced diffusion segmentation model, called TextDiff, that improves semantic representation through inexpensive medical text annotations, thereby explicitly establishing semantic representation and language correspondence for diffusion models. Concretely, TextDiff extracts intermediate activations of the Markov step of the reverse diffusion process in a pretrained diffusion model on large-scale natural images and learns additional expert knowledge by combining them with complementary and readily available diagnostic text information. TextDiff freezes the dual-branch multi-modal structure and mines the latent alignment of semantic features in diffusion models with diagnostic descriptions by only training the cross-attention mechanism and pixel classifier, making it possible to enhance semantic representation with inexpensive text. Extensive experiments on public QaTa-COVID19 and MoNuSeg datasets show that our TextDiff is significantly superior to the state-of-the-art multi-modal segmentation methods with only a few training samples.
Abstract（参考訳）: 医用画像生成における最先端のパフォーマンスを提供する以外に、拡散確率モデル(DPM)は意味情報をキャプチャする表現学習者としても機能し、例えばセグメンテーションなどの下流タスクのイメージ表現として使用される可能性がある。しかし、これらの潜在意味表現は、労働集約的なピクセルレベルのアノテーションを監督に大きく依存しており、医用画像のセグメント化におけるDPMの使用性を制限している。この制限に対処するために、安価な医療用テキストアノテーションによる意味表現を改善し、拡散モデルに対する意味表現と言語対応を明確に確立するTextDiffと呼ばれる拡張拡散分割モデルを提案する。具体的には,大規模な自然画像上での事前学習拡散モデルにおいて,逆拡散過程のマルコフステップの中間活性化を抽出し,相補的で容易に診断可能なテキスト情報と組み合わせることで,さらなる専門知識を学習する。 TextDiffはデュアルブランチのマルチモーダル構造を凍結し、クロスアテンション機構とピクセル分類器のみをトレーニングすることで、拡散モデルにおけるセマンティックな特徴の潜在的アライメントを診断記述とともにマイニングし、安価なテキストでセマンティック表現を強化する。公開QaTa-COVID19データセットとMoNuSegデータセットの大規模な実験により、TextDiffは、いくつかのトレーニングサンプルしか持たない最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることが示された。

関連論文リスト

A Fast and Efficient Modern BERT based Text-Conditioned Diffusion Model for Medical Image Segmentation [1.1348379236860462]
本稿では,医用テキストアノテーションを統合して意味表現を強化するラベル効率のよい拡散ベースセグメンテーションモデルであるFastTextDiffを提案する。提案手法では,長い臨床メモを処理可能な変換器であるModernBERTを用いて,医用画像のテキストアノテーションと意味的内容の密接なリンクを行う。臨床用BibBERTをModernBERTに置き換えることによって、FastTextDiffはFlashAttention 2の恩恵を受ける。
論文参考訳（メタデータ） (2025-11-26T06:57:11Z)
Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。 MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文参考訳（メタデータ） (2025-09-22T17:59:54Z)
GS: Generative Segmentation via Label Diffusion [59.380173266566715]
言語駆動のイメージセグメンテーションは、自然言語表現に対応する画像の領域を分割するモデルを必要とする、視覚言語理解の基本的なタスクである。近年の拡散モデルがこの領域に導入されているが、既存のアプローチは画像中心のままである。生成タスクとしてセグメンテーション自体を定式化する新しいフレームワークであるGS(Generative Label)を提案する。実験の結果,GSは既存の差別的・拡散的手法を著しく上回り,言語駆動セグメンテーションのための新たな最先端技術が確立された。
論文参考訳（メタデータ） (2025-08-27T16:28:15Z)
Robust Noisy Pseudo-label Learning for Semi-supervised Medical Image Segmentation Using Diffusion Model [5.158113225132093]
半教師付き医用画像セグメンテーションは、限られた注釈付きデータと豊富なラベルなしデータを利用して正確なセグメンテーションを実現することを目的としている。既存の手法は、擬似ラベルが導入したノイズにより、潜在空間における意味分布を構成するのにしばしば苦労する。提案手法は,プロトタイプに基づくコントラッシブコントラストの整合性を強制することにより,意味ラベルの遅延構造に制約を導入する。
論文参考訳（メタデータ） (2025-07-22T10:21:55Z)
PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文参考訳（メタデータ） (2025-04-09T14:58:21Z)
RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models [0.7165255458140439]
VLFM(Vision-Language Foundation Models)は、高解像度でフォトリアリスティックな自然画像を生成するという点で、大幅な性能向上を示している。本稿では,事前学習したVLFMがカーソリー意味理解を提供するマルチステージアーキテクチャを提案する。本手法の有効性を医用撮像皮膚データセットに示し, 生成した画像から生成品質が向上し, 微調整された安定拡散に対するプロンプトとの整合性が向上することを示した。
論文参考訳（メタデータ） (2025-03-20T01:51:05Z)
MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文参考訳（メタデータ） (2024-12-04T16:34:22Z)
A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文参考訳（メタデータ） (2024-11-19T16:20:27Z)
Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文参考訳（メタデータ） (2024-10-03T10:33:49Z)
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文参考訳（メタデータ） (2024-01-22T07:34:06Z)
Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic Segmentation [16.863038973001483]
本研究は拡散合成セマンティックセマンティックセグメンテーショントレーニングの3つの手法を紹介する。第一に、信頼性に配慮した堅牢なトレーニングは、もともと弱い教師付き学習で用いられ、合成マスクの品質が不十分なセグメンテーションに役立つ。第2に、画像Net-1kクラスの画像にバックボーンだけでなく、全体セグメンテーションモデルの大規模事前トレーニングを行うことで、下流のセグメンテーションタスクにメリットがある。第3に,テキストリソースの制限により,トレーニング画像のスケールアップと多様化を図るために,プロンプトテキストセットにプロンプト拡張,データ拡張を導入する。
論文参考訳（メタデータ） (2023-09-04T05:34:19Z)
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。 DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T05:03:48Z)
Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文参考訳（メタデータ） (2023-05-18T05:41:36Z)
Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文参考訳（メタデータ） (2023-03-03T18:59:47Z)
What the DAAM: Interpreting Stable Diffusion Using Cross Attention [39.97805685586423]
大規模拡散ニューラルネットワークは、テキスト・画像生成において重要なマイルストーンである。説明可能性の欠如と解釈可能性の分析は、主にプロプライエタリでクローズドソースな性質のため、理解に乏しいままである。本稿では,潜伏するサブネットワークにおけるクロスアテンションアクティベーションのアップスケーリングと集約に基づく新しい手法であるDAAMを提案する。 DAAMは,61.0のmIoUを達成し,キャプション生成画像に対して強く作用し,オープン語彙セグメンテーションにおける教師付きモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-10T17:55:41Z)
Unsupervised Medical Image Translation with Adversarial Diffusion Models [0.2770822269241974]
ソース・トゥ・ターゲット・モダリティ変換による画像の欠落の計算は、医用画像プロトコルの多様性を向上させることができる。本稿では, 医用画像翻訳の性能向上のための逆拡散モデルであるSynDiffを提案する。
論文参考訳（メタデータ） (2022-07-17T15:53:24Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Label-Efficient Semantic Segmentation with Diffusion Models [27.01899943738203]
拡散モデルは意味的セグメンテーションの道具としても機能することを示した。特に、いくつかの事前訓練拡散モデルに対して、逆拡散過程のマルコフステップを実行するネットワークからの中間活性化について検討する。これらのアクティベーションは、入力画像から意味情報を効果的にキャプチャし、セグメンテーション問題に対して優れたピクセルレベルの表現であることを示す。
論文参考訳（メタデータ） (2021-12-06T15:55:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。