論文の概要: Organ-aware Multi-scale Medical Image Segmentation Using Text Prompt Engineering
- arxiv url: http://arxiv.org/abs/2503.13806v1
- Date: Tue, 18 Mar 2025 01:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:45.735058
- Title: Organ-aware Multi-scale Medical Image Segmentation Using Text Prompt Engineering
- Title(参考訳): テキスト・プロンプト・エンジニアリングを用いた臓器認識型マルチスケール医用画像セグメンテーション
- Authors: Wenjie Zhang, Ziyang Zhang, Mengnan He, Jiancheng Ye,
- Abstract要約: 既存の医用画像分割法は、画像やビデオなどの一様視覚入力に依存しており、労働集約的な手動アノテーションを必要とする。
医用イメージング技術は、単一のスキャン内で複数の絡み合った臓器をキャプチャし、セグメンテーションの精度をさらに複雑にする。
これらの課題に対処するため、MedSAMは画像特徴とユーザが提供するプロンプトを統合することでセグメンテーションの精度を高めるために開発された。
- 参考スコア(独自算出の注目度): 17.273290949721975
- License:
- Abstract: Accurate segmentation is essential for effective treatment planning and disease monitoring. Existing medical image segmentation methods predominantly rely on uni-modal visual inputs, such as images or videos, requiring labor-intensive manual annotations. Additionally, medical imaging techniques capture multiple intertwined organs within a single scan, further complicating segmentation accuracy. To address these challenges, MedSAM, a large-scale medical segmentation model based on the Segment Anything Model (SAM), was developed to enhance segmentation accuracy by integrating image features with user-provided prompts. While MedSAM has demonstrated strong performance across various medical segmentation tasks, it primarily relies on geometric prompts (e.g., points and bounding boxes) and lacks support for text-based prompts, which could help specify subtle or ambiguous anatomical structures. To overcome these limitations, we propose the Organ-aware Multi-scale Text-guided Medical Image Segmentation Model (OMT-SAM) for multi-organ segmentation. Our approach introduces CLIP encoders as a novel image-text prompt encoder, operating with the geometric prompt encoder to provide informative contextual guidance. We pair descriptive textual prompts with corresponding images, processing them through pre-trained CLIP encoders and a cross-attention mechanism to generate fused image-text embeddings. Additionally, we extract multi-scale visual features from MedSAM, capturing fine-grained anatomical details at different levels of granularity. We evaluate OMT-SAM on the FLARE 2021 dataset, benchmarking its performance against existing segmentation methods. Empirical results demonstrate that OMT-SAM achieves a mean Dice Similarity Coefficient of 0.937, outperforming MedSAM (0.893) and other segmentation models, highlighting its superior capability in handling complex medical image segmentation tasks.
- Abstract(参考訳): 正確なセグメンテーションは効果的な治療計画と疾患モニタリングに不可欠である。
既存の医用画像分割法は、主に労働集約的な手動アノテーションを必要とする画像やビデオのような一様視覚入力に依存している。
さらに、医療画像技術は、単一のスキャン内で複数の内在する臓器をキャプチャし、セグメンテーションの精度をさらに複雑にする。
これらの課題に対処するため,Segment Anything Model (SAM)に基づく大規模医療セグメンテーションモデルであるMedSAMを開発した。
MedSAMは様々な医学的セグメンテーションタスクで強いパフォーマンスを示してきたが、主に幾何学的プロンプト(例えば、点とバウンディングボックス)に依存しており、テキストベースのプロンプトをサポートしておらず、微妙で曖昧な解剖学的構造を特定するのに役立つ。
これらの制約を克服するため,マルチ組織セグメンテーションのためのOMT-SAM(Organ-aware Multi-scale Text-guided Medical Image Segmentation Model)を提案する。
提案手法では,新しい画像テキストプロンプトエンコーダとしてCLIPエンコーダを導入し,幾何学的プロンプトエンコーダを用いて情報的文脈ガイダンスを提供する。
記述的テキストプロンプトと対応する画像とをペアにして,事前学習したCLIPエンコーダと,融合した画像テキスト埋め込みを生成するクロスアテンション機構により処理する。
さらに,MedSAMからマルチスケールの視覚的特徴を抽出し,微細な解剖学的詳細を異なるレベルの粒度で捉えた。
FLARE 2021データセット上でOMT-SAMを評価し,既存のセグメンテーション手法と比較した。
実験の結果, OMT-SAM は 0.937 のDice類似度係数を達成し, MedSAM (0.893) や他のセグメンテーションモデルより優れており, 複雑な医用画像セグメンテーションタスクの処理能力に優れていた。
関連論文リスト
- Learnable Prompting SAM-induced Knowledge Distillation for Semi-supervised Medical Image Segmentation [47.789013598970925]
半教師型医用画像分割のための知識蒸留フレームワークKnowSAMを提案する。
我々のモデルは最先端の半教師付きセグメンテーションアプローチより優れている。
論文 参考訳(メタデータ) (2024-12-18T11:19:23Z) - DB-SAM: Delving into High Quality Universal Medical Image Segmentation [100.63434169944853]
本稿では,2次元医療データと2次元医療データとのギャップを埋めるために,DB-SAMという二分岐型SAMフレームワークを提案する。
文献における最近の医療用SAMアダプタと比較して,DB-SAMは8.8%向上した。
論文 参考訳(メタデータ) (2024-10-05T14:36:43Z) - MedCLIP-SAMv2: Towards Universal Text-Driven Medical Image Segmentation [2.2585213273821716]
MedCLIP-SAMv2はCLIPとSAMモデルを統合して臨床スキャンのセグメンテーションを行う新しいフレームワークである。
提案手法は,DHN-NCE(Decoupled Hard Negative Noise Contrastive Estimation)によるBiomedCLIPモデルの微調整を含む。
また,ゼロショットセグメンテーションラベルを弱教師付きパラダイム内で使用することにより,セグメンテーション品質をさらに向上する。
論文 参考訳(メタデータ) (2024-09-28T23:10:37Z) - MedCLIP-SAM: Bridging Text and Image Towards Universal Medical Image Segmentation [2.2585213273821716]
本稿では,CLIPモデルとSAMモデルを組み合わせて臨床スキャンのセグメンテーションを生成する新しいフレームワーク MedCLIP-SAM を提案する。
3つの多様なセグメンテーションタスクと医用画像モダリティを広範囲にテストすることにより、提案手法は優れた精度を示した。
論文 参考訳(メタデータ) (2024-03-29T15:59:11Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - I-MedSAM: Implicit Medical Image Segmentation with Segment Anything [24.04558900909617]
提案するI-MedSAMは、連続表現とSAMの両方の利点を利用して、クロスドメイン能力と正確な境界線を求める。
トレーニング可能なパラメータが1.6Mしかない提案手法は、離散的および暗黙的を含む既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-28T00:43:52Z) - Multi-Prompt Fine-Tuning of Foundation Models for Enhanced Medical Image
Segmentation [10.946806607643689]
Segment Anything Model (SAM) は、自然画像セグメンテーションの革命的進歩を導入した強力な基礎モデルである。
本研究では,SAMのイメージ毎に複数のプロンプトをバンドルして処理する機能を活用した,新しい微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-03T19:05:00Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - SamDSK: Combining Segment Anything Model with Domain-Specific Knowledge
for Semi-Supervised Learning in Medical Image Segmentation [27.044797468878837]
Segment Anything Model (SAM)は、自然画像に広範囲のオブジェクトを分割する機能を示す。
本稿では、SAMとドメイン固有の知識を組み合わせて、ラベルなし画像の信頼性の高い利用法を提案する。
本研究は,医用画像セグメンテーションのための半教師あり学習の新たな方向性を創出する。
論文 参考訳(メタデータ) (2023-08-26T04:46:10Z) - Medical SAM Adapter: Adapting Segment Anything Model for Medical Image
Segmentation [51.770805270588625]
Segment Anything Model (SAM)は画像セグメンテーションの分野で最近人気を集めている。
近年の研究では、SAMは医用画像のセグメンテーションにおいて過小評価されている。
ドメイン固有の医療知識をセグメンテーションモデルに組み込んだ医療SAMアダプタ(Med-SA)を提案する。
論文 参考訳(メタデータ) (2023-04-25T07:34:22Z) - Self-Supervised Correction Learning for Semi-Supervised Biomedical Image
Segmentation [84.58210297703714]
半教師付きバイオメディカルイメージセグメンテーションのための自己教師付き補正学習パラダイムを提案する。
共有エンコーダと2つの独立デコーダを含むデュアルタスクネットワークを設計する。
異なるタスクのための3つの医用画像分割データセットの実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-01-12T08:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。