論文の概要: A Fast and Efficient Modern BERT based Text-Conditioned Diffusion Model for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2512.00084v1
- Date: Wed, 26 Nov 2025 06:57:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.05141
- Title: A Fast and Efficient Modern BERT based Text-Conditioned Diffusion Model for Medical Image Segmentation
- Title(参考訳): 医用画像セグメンテーションのための高速かつ効率的な現代BERTベーステキスト記述拡散モデル
- Authors: Venkata Siddharth Dhara, Pawan Kumar,
- Abstract要約: 本稿では,医用テキストアノテーションを統合して意味表現を強化するラベル効率のよい拡散ベースセグメンテーションモデルであるFastTextDiffを提案する。
提案手法では,長い臨床メモを処理可能な変換器であるModernBERTを用いて,医用画像のテキストアノテーションと意味的内容の密接なリンクを行う。
臨床用BibBERTをModernBERTに置き換えることによって、FastTextDiffはFlashAttention 2の恩恵を受ける。
- 参考スコア(独自算出の注目度): 1.1348379236860462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent times, denoising diffusion probabilistic models (DPMs) have proven effective for medical image generation and denoising, and as representation learners for downstream segmentation. However, segmentation performance is limited by the need for dense pixel-wise labels, which are expensive, time-consuming, and require expert knowledge. We propose FastTextDiff, a label-efficient diffusion-based segmentation model that integrates medical text annotations to enhance semantic representations. Our approach uses ModernBERT, a transformer capable of processing long clinical notes, to tightly link textual annotations with semantic content in medical images. Trained on MIMIC-III and MIMIC-IV, ModernBERT encodes clinical knowledge that guides cross-modal attention between visual and textual features. This study validates ModernBERT as a fast, scalable alternative to Clinical BioBERT in diffusion-based segmentation pipelines and highlights the promise of multi-modal techniques for medical image analysis. By replacing Clinical BioBERT with ModernBERT, FastTextDiff benefits from FlashAttention 2, an alternating attention mechanism, and a 2-trillion-token corpus, improving both segmentation accuracy and training efficiency over traditional diffusion-based models.
- Abstract(参考訳): 近年,拡散確率モデル (DPM) は, 医用画像の生成やデノイング, 下流セグメンテーションの表現学習手段として有効であることが証明されている。
しかし、セグメンテーションのパフォーマンスは、高価な、時間を要する、専門家の知識を必要とする、高密度なピクセルワイドラベルの必要性によって制限されている。
本稿では,医用テキストアノテーションを統合して意味表現を強化するラベル効率のよい拡散ベースセグメンテーションモデルであるFastTextDiffを提案する。
提案手法では,長い臨床メモを処理可能な変換器であるModernBERTを用いて,医用画像のテキストアノテーションと意味的内容の密接なリンクを行う。
MIMIC-IIIとMIMIC-IVで訓練されたModernBERTは、視覚的特徴とテキスト的特徴の間の相互注意を導く臨床知識を符号化する。
本研究は、拡散型セグメンテーションパイプラインにおいて、ModernBERTを高速でスケーラブルなBioBERT代替品として評価し、医用画像解析におけるマルチモーダル技術の可能性を強調した。
Clinical BioBERTをModernBERTに置き換えることで、FastTextDiffはFlashAttention 2、交互注意機構、および2トリリオントーケンコーパスの恩恵を受け、従来の拡散モデルよりもセグメンテーション精度とトレーニング効率が向上した。
関連論文リスト
- MedCondDiff: Lightweight, Robust, Semantically Guided Diffusion for Medical Image Segmentation [5.838464931565891]
医用画像セグメンテーションのための拡散型フレームワークであるMedCondDiffを紹介する。
モデルでは、ピラミッドビジョントランスフォーマー(PVT)バックボーンから抽出されたセマンティックプリエントをデノナイズ処理する。
この設計は、推論時間とVRAM使用量の両方を削減しながら、堅牢性を改善する。
論文 参考訳(メタデータ) (2025-11-29T06:43:15Z) - Robust Noisy Pseudo-label Learning for Semi-supervised Medical Image Segmentation Using Diffusion Model [5.158113225132093]
半教師付き医用画像セグメンテーションは、限られた注釈付きデータと豊富なラベルなしデータを利用して正確なセグメンテーションを実現することを目的としている。
既存の手法は、擬似ラベルが導入したノイズにより、潜在空間における意味分布を構成するのにしばしば苦労する。
提案手法は,プロトタイプに基づくコントラッシブコントラストの整合性を強制することにより,意味ラベルの遅延構造に制約を導入する。
論文 参考訳(メタデータ) (2025-07-22T10:21:55Z) - SegDT: A Diffusion Transformer-Based Segmentation Model for Medical Imaging [12.707029435622953]
本稿では拡散変圧器(DiT)に基づく新しいセグメンテーションモデルであるSegDTを紹介する。
SegDTは低コストのハードウェアで動作するように設計されており、推論ステップの削減で生成品質を改善するRectified Flowが組み込まれている。
この研究は、医療画像分析におけるディープラーニングモデルの性能と能力を向上し、医療専門家のためのより速く、より正確な診断ツールを可能にする。
論文 参考訳(メタデータ) (2025-07-21T13:18:05Z) - PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。
本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。
本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-04-09T14:58:21Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Enhancing Label-efficient Medical Image Segmentation with Text-guided Diffusion Models [5.865983529245793]
TextDiffは、安価な医療用テキストアノテーションを通じて意味表現を改善する。
その結果,TextDiffは,少数のトレーニングサンプルのみで,最先端のマルチモーダルセグメンテーション手法よりもはるかに優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-07T10:21:08Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - MedFLIP: Medical Vision-and-Language Self-supervised Fast Pre-Training with Masked Autoencoder [26.830574964308962]
本稿では,医療分析のための高速言語画像事前学習手法であるMedFLIPを紹介する。
交差ドメインを用いたゼロショット学習のためのMAEを探索し、限られたデータから学習するモデルの能力を向上する。
最後に,医療画像解析におけるゼロショット性能の向上を言語を用いて検証する。
論文 参考訳(メタデータ) (2024-03-07T16:11:43Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。