論文の概要: XBusNet: Text-Guided Breast Ultrasound Segmentation via Multimodal Vision-Language Learning
- arxiv url: http://arxiv.org/abs/2509.07213v1
- Date: Mon, 08 Sep 2025 20:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.119379
- Title: XBusNet: Text-Guided Breast Ultrasound Segmentation via Multimodal Vision-Language Learning
- Title(参考訳): XBusNet:マルチモーダルビジョンランゲージ学習によるテキストガイド乳房超音波セグメンテーション
- Authors: Raja Mallina, Bryar Shareef,
- Abstract要約: XBusNetは、画像の特徴と臨床的な接地されたテキストを組み合わせた、新しいデュアルプロンプトでデュアルブランチのマルチモーダルモデルである。
5倍のクロスバリデーションを用いて,乳腺病変USG(BLU)データセット上で評価を行った。
小さな病変は最大の増加を示し、欠落した領域は少なく、急激な活性化は少ない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Background: Precise breast ultrasound (BUS) segmentation supports reliable measurement, quantitative analysis, and downstream classification, yet remains difficult for small or low-contrast lesions with fuzzy margins and speckle noise. Text prompts can add clinical context, but directly applying weakly localized text-image cues (e.g., CAM/CLIP-derived signals) tends to produce coarse, blob-like responses that smear boundaries unless additional mechanisms recover fine edges. Methods: We propose XBusNet, a novel dual-prompt, dual-branch multimodal model that combines image features with clinically grounded text. A global pathway based on a CLIP Vision Transformer encodes whole-image semantics conditioned on lesion size and location, while a local U-Net pathway emphasizes precise boundaries and is modulated by prompts that describe shape, margin, and Breast Imaging Reporting and Data System (BI-RADS) terms. Prompts are assembled automatically from structured metadata, requiring no manual clicks. We evaluate on the Breast Lesions USG (BLU) dataset using five-fold cross-validation. Primary metrics are Dice and Intersection over Union (IoU); we also conduct size-stratified analyses and ablations to assess the roles of the global and local paths and the text-driven modulation. Results: XBusNet achieves state-of-the-art performance on BLU, with mean Dice of 0.8765 and IoU of 0.8149, outperforming six strong baselines. Small lesions show the largest gains, with fewer missed regions and fewer spurious activations. Ablation studies show complementary contributions of global context, local boundary modeling, and prompt-based modulation. Conclusions: A dual-prompt, dual-branch multimodal design that merges global semantics with local precision yields accurate BUS segmentation masks and improves robustness for small, low-contrast lesions.
- Abstract(参考訳): 背景: 乳房超音波(BUS)セグメンテーションは, 信頼性測定, 定量的解析, 下流分類をサポートするが, ファジィマージンとスペックルノイズを有する小または低コントラスト病変では困難である。
テキストプロンプトは臨床コンテキストを追加することができるが、弱い局所化されたテキストイメージの手がかり(例えば、CAM/CLIP由来の信号)を直接適用すると、追加のメカニズムが細い縁を回復しない限り境界線をスミアする粗いブロブのような反応が生じる傾向がある。
方法:XBusNetは,画像特徴と臨床背景テキストを組み合わせた,新しいデュアルプロンプト,デュアルブランチマルチモーダルモデルである。
CLIP Vision Transformerに基づくグローバルパスは、病変のサイズと位置に基づいて条件付き全体イメージセマンティクスを符号化する一方、ローカルなU-Netパスは正確な境界を強調し、形状、マージン、乳房画像レポートとデータシステム(BI-RADS)の用語を記述するプロンプトによって変調される。
プロンプトは構造化メタデータから自動的に組み立てられ、手動クリックは不要である。
5倍のクロスバリデーションを用いた乳腺病変USG(BLU)データセットの評価を行った。
主要なメトリクスは、Dice and Intersection over Union (IoU) であり、我々はまた、グローバルパスとローカルパスとテキスト駆動変調の役割を評価するために、サイズ階層化された分析と改善も行っている。
結果: XBusNetはBLUで最先端のパフォーマンスを達成し、平均Diceは0.8765、IoUは0.8149で、6つの強いベースラインを上回った。
小さな病変は最大の増加を示し、欠落した領域は少なく、急激な活性化は少ない。
アブレーション研究は、グローバルコンテキスト、局所境界モデリング、およびプロンプトに基づく変調の相補的な寄与を示している。
結論: 局所精度とグローバルセマンティクスをマージする二重分岐型マルチモーダル設計では,BUSセグメンテーションマスクの精度が向上し,小さな低コントラスト病変に対するロバスト性も向上する。
関連論文リスト
- TABNet: A Triplet Augmentation Self-Recovery Framework with Boundary-Aware Pseudo-Labels for Medical Image Segmentation [4.034121387622003]
本稿では,医用画像分割フレームワークTAB Netを提案する。
三重化自己回復モジュール(TAS)と境界対応擬似ラベル監視モジュール(BAP)から構成されている。
我々は,TAB Netが,スクリブルベースの弱教師付きセグメンテーションにおいて,最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-07-03T07:50:00Z) - CENet: Context Enhancement Network for Medical Image Segmentation [3.4690322157094573]
本稿では,2つの重要なイノベーションを特徴とする新しいセグメンテーションフレームワークであるCENetを提案する。
まず、スキップ接続に統合されたDual Selective Enhancement Block(DSEB)は境界の詳細を高め、コンテキスト対応で小さな臓器の検出を改善する。
第二に、デコーダのContext Feature Attention Module (CFAM)は、空間的整合性を維持し、特徴の冗長性を低減し、過剰に拡張された表現を緩和するために、マルチスケールの設計を採用している。
論文 参考訳(メタデータ) (2025-05-23T23:22:18Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - SGSeg: Enabling Text-free Inference in Language-guided Segmentation of Chest X-rays via Self-guidance [10.075820470715374]
テキストフリー推論(ユニモーダル)を実現しつつ、学習のための言語指導(マルチモーダル)を活用するセルフガイドセグメンテーションフレームワーク(SGSeg)を提案する。
本報告では, 肺, 病理組織ともに重要な位置情報を活用するとともに, 自己指導のための臨床報告を生成するために, 新たな局所化強化レポート生成(LERG)モジュールを導入する。
我々のLERGは、位置認識型擬似ラベル抽出モジュールによって弱制御された、オブジェクト検出器と位置ベースアグリゲータを統合している。
論文 参考訳(メタデータ) (2024-09-07T08:16:00Z) - Multi-Level Global Context Cross Consistency Model for Semi-Supervised
Ultrasound Image Segmentation with Diffusion Model [0.0]
本研究では,Latent Diffusion Model (LDM) によって生成された画像を,半教師付き学習のためのラベル付き画像として利用するフレームワークを提案する。
提案手法により,確率分布の知識をセグメント化ネットワークに効果的に伝達することが可能となり,セグメント化精度が向上する。
論文 参考訳(メタデータ) (2023-05-16T14:08:24Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z) - Cross-Modality Brain Tumor Segmentation via Bidirectional
Global-to-Local Unsupervised Domain Adaptation [61.01704175938995]
本論文では,UDAスキームに基づくBiGL(Bidirectional Global-to-Local)適応フレームワークを提案する。
具体的には、脳腫瘍をセグメント化するために、双方向画像合成およびセグメンテーションモジュールを提案する。
提案手法は, 最先端の非教師なし領域適応法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-05-17T10:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。