論文の概要: GroundingDINO-US-SAM: Text-Prompted Multi-Organ Segmentation in Ultrasound with LoRA-Tuned Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.23903v1
- Date: Mon, 30 Jun 2025 14:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.102579
- Title: GroundingDINO-US-SAM: Text-Prompted Multi-Organ Segmentation in Ultrasound with LoRA-Tuned Vision-Language Models
- Title(参考訳): GroundingDINO-US-SAM:LoRA-Tuned Vision-Language Modelを用いた超音波によるテキストプロンプトマルチオーガンセグメンテーション
- Authors: Hamza Rasaee, Taha Koleilat, Hassan Rivaz,
- Abstract要約: 本研究では,複数の超音波臓器にまたがる物体セグメンテーションを実現するために,Grounding DINOとSAM2を統合したプロンプト駆動視覚言語モデル(VLM)を提案する。
胸, 甲状腺, 肝臓, 前立腺, 腎臓, 脊髄筋を含む18種類の超音波データセットが得られた。
提案手法は,UniverSeg,MedSAM,MedCLIP-SAM,BiomedParse,SAMUSなどの最先端セグメンテーション手法より優れている。
- 参考スコア(独自算出の注目度): 2.089191490381739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and generalizable object segmentation in ultrasound imaging remains a significant challenge due to anatomical variability, diverse imaging protocols, and limited annotated data. In this study, we propose a prompt-driven vision-language model (VLM) that integrates Grounding DINO with SAM2 to enable object segmentation across multiple ultrasound organs. A total of 18 public ultrasound datasets, encompassing the breast, thyroid, liver, prostate, kidney, and paraspinal muscle, were utilized. These datasets were divided into 15 for fine-tuning and validation of Grounding DINO using Low Rank Adaptation (LoRA) to the ultrasound domain, and 3 were held out entirely for testing to evaluate performance in unseen distributions. Comprehensive experiments demonstrate that our approach outperforms state-of-the-art segmentation methods, including UniverSeg, MedSAM, MedCLIP-SAM, BiomedParse, and SAMUS on most seen datasets while maintaining strong performance on unseen datasets without additional fine-tuning. These results underscore the promise of VLMs in scalable and robust ultrasound image analysis, reducing dependence on large, organ-specific annotated datasets. We will publish our code on code.sonography.ai after acceptance.
- Abstract(参考訳): 超音波画像における高精度で一般化可能なオブジェクトセグメンテーションは、解剖学的多様性、多様なイメージングプロトコル、限られた注釈付きデータのために依然として重要な課題である。
本研究では,複数臓器にまたがる物体のセグメンテーションを実現するために,Grounding DINOとSAM2を統合したプロンプト駆動型視覚言語モデル(VLM)を提案する。
胸, 甲状腺, 肝臓, 前立腺, 腎臓, 脊髄筋を含む18種類の超音波データセットが得られた。
これらのデータセットは,Low Rank Adaptation (LoRA) を超音波領域に応用したグラウンドニングDINOの微調整および検証のための15種に分割し,不明瞭な分布における性能を評価するために3種を試験した。
包括的実験により、我々のアプローチは、UniverSeg、MedSAM、MedCLIP-SAM、BiomedParse、SAMUSといった最先端のセグメンテーション手法よりも優れた性能を示しながら、追加の微調整なしに未確認データセットの強い性能を維持している。
これらの結果は、スケーラブルでロバストな超音波画像解析におけるVLMの約束を強調し、大きな臓器特異的な注釈付きデータセットへの依存を減らす。
承認後、code.sonography.aiでコードを公開します。
関連論文リスト
- MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - WATUNet: A Deep Neural Network for Segmentation of Volumetric Sweep
Imaging Ultrasound [1.2903292694072621]
ボリューム・スイープ・イメージング(VSI)は、訓練を受けていないオペレーターが高品質な超音波画像をキャプチャできる革新的な手法である。
本稿ではWavelet_Attention_UNet(WATUNet)と呼ばれる新しいセグメンテーションモデルを提案する。
このモデルでは、簡単な接続ではなく、ウェーブレットゲート(WG)とアテンションゲート(AG)をエンコーダとデコーダの間に組み込んで、上記の制限を克服する。
論文 参考訳(メタデータ) (2023-11-17T20:32:37Z) - SonoSAMTrack -- Segment and Track Anything on Ultrasound Images [8.19114188484929]
SonoSAMTrackは、SonoSAMと呼ばれる超音波画像に興味のあるオブジェクトをセグメント化するための、迅速な基礎モデルを組み合わせる。
SonoSAMは、7つの目に見えないデータセットで最先端のパフォーマンスを示し、競合するメソッドよりもかなりの差がある。
論文 参考訳(メタデータ) (2023-10-25T16:42:26Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - Segment Anything Model for Medical Image Analysis: an Experimental Study [19.95972201734614]
Segment Anything Model (SAM) は、ユーザ定義オブジェクトをインタラクティブな方法でセグメント化する基礎モデルである。
SAMの医用画像の分類能力について,各種のモダリティと解剖から,19の医用画像データセットの集合体を用いて評価した。
論文 参考訳(メタデータ) (2023-04-20T17:50:18Z) - AMOS: A Large-Scale Abdominal Multi-Organ Benchmark for Versatile
Medical Image Segmentation [32.938687630678096]
AMOSは、腹部臓器の分節のための大規模で多様な臨床データセットである。
さまざまなターゲットとシナリオの下で堅牢なセグメンテーションアルゴリズムを研究する上で、難しい例とテストベッドを提供する。
我々は、この新たな挑戦的データセット上で既存の方法の現状を評価するために、最先端の医療セグメンテーションモデルをいくつかベンチマークする。
論文 参考訳(メタデータ) (2022-06-16T09:27:56Z) - MS-Net: Multi-Site Network for Improving Prostate Segmentation with
Heterogeneous MRI Data [75.73881040581767]
本稿では,ロバスト表現を学習し,前立腺のセグメンテーションを改善するための新しいマルチサイトネットワーク(MS-Net)を提案する。
当社のMS-Netは,すべてのデータセットのパフォーマンスを一貫して改善し,マルチサイト学習における最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2020-02-09T14:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。