論文の概要: DescriptorMedSAM: Language-Image Fusion with Multi-Aspect Text Guidance for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2503.13806v2
- Date: Sun, 21 Sep 2025 19:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:44.891527
- Title: DescriptorMedSAM: Language-Image Fusion with Multi-Aspect Text Guidance for Medical Image Segmentation
- Title(参考訳): DescriptorMedSAM:医療画像分割のための多視点テキストガイドを用いた言語画像融合
- Authors: Wenjie Zhang, Liming Luo, Mengnan He, Jiarui Hai, Jiancheng Ye,
- Abstract要約: 本稿では,MedSAMの軽量拡張であるDescriptorMedSAMを提案する。
DescriptorMedSAMはCLIPテキストエンコーダを使用して、放射線学スタイルのディスクリプタを密度の高い埋め込みに変換する。
我々は、構造化言語プロンプトが空間的相互作用を効果的に置き換え、強力なゼロショット性能と高速な少数ショット適応を実現することを実証した。
- 参考スコア(独自算出の注目度): 10.598528392988062
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate organ segmentation is essential for clinical tasks such as radiotherapy planning and disease monitoring. Recent foundation models like MedSAM achieve strong results using point or bounding-box prompts but still require manual interaction. We propose DescriptorMedSAM, a lightweight extension of MedSAM that incorporates structured text prompts, ranging from simple organ names to combined shape and location descriptors to enable click-free segmentation. DescriptorMedSAM employs a CLIP text encoder to convert radiology-style descriptors into dense embeddings, which are fused with visual tokens via a cross-attention block and a multi-scale feature extractor. We designed four descriptor types: Name (N), Name + Shape (NS), Name + Location (NL), and Name + Shape + Location (NSL), and evaluated them on the FLARE 2022 dataset under zero-shot and few-shot settings, where organs unseen during training must be segmented with minimal additional data. NSL prompts achieved the highest performance, with a Dice score of 0.9405 under full supervision, a 76.31% zero-shot retention ratio, and a 97.02% retention ratio after fine-tuning with only 50 labeled slices per unseen organ. Adding shape and location cues consistently improved segmentation accuracy, especially for small or morphologically complex structures. We demonstrate that structured language prompts can effectively replace spatial interactions, delivering strong zero-shot performance and rapid few-shot adaptation. By quantifying the role of descriptor, this work lays the groundwork for scalable, prompt-aware segmentation models that generalize across diverse anatomical targets with minimal annotation effort.
- Abstract(参考訳): 放射線治療計画や疾患モニタリングなどの臨床業務において,臓器の正確なセグメンテーションが不可欠である。
MedSAMのような最近の基礎モデルは、ポイントプロンプトやバウンディングボックスプロンプトを使って強力な結果を得るが、それでも手動インタラクションが必要である。
我々は,単純な臓器名から,クリックフリーセグメンテーションを実現するための形状と位置記述子の組み合わせまで,構造化されたテキストプロンプトを組み込んだ,MedSAMの軽量拡張であるDescriptorMedSAMを提案する。
DescriptorMedSAMはCLIPテキストエンコーダを使用して、放射線学スタイルのディスクリプタを密な埋め込みに変換する。
我々は4つの記述子タイプを設計した: Name (N), Name + Shape (NS), Name + Location (NL), Name + Shape + Location (NSL)。
NSLは、全監督下でのDiceスコア0.9405、0ショット保持率76.31%、微調整後の97.02%の保持率で最高性能を達成した。
形状と位置の手がかりを加えることは、特に小または形態学的に複雑な構造において、セグメンテーションの精度を一貫して改善した。
我々は、構造化言語プロンプトが空間的相互作用を効果的に置き換え、強力なゼロショット性能と高速な少数ショット適応を実現することを実証した。
ディスクリプタの役割を定量化することにより、この研究は、最小限のアノテーションの努力で様々な解剖学的目標をまたいで一般化するスケーラブルで迅速なセグメンテーションモデルの基盤となる。
関連論文リスト
- CRISP-SAM2: SAM2 with Cross-Modal Interaction and Semantic Prompting for Multi-Organ Segmentation [32.48945636401865]
CRoss-modal Interaction と Semantic Prompting をベースとした CRISP-SAM2 という新しいモデルを提案する。
このモデルは、臓器のテキスト記述によって導かれる多臓器医療セグメンテーションへの有望なアプローチを示す。
我々の手法は、視覚的およびテキスト的入力を相互に文脈化されたセマンティクスに変換することから始まる。
論文 参考訳(メタデータ) (2025-06-29T07:05:27Z) - MedSeg-R: Reasoning Segmentation in Medical Images with Multimodal Large Language Models [48.24824129683951]
本稿では,複雑で暗黙的な医療指導に基づくセグメンテーションマスク作成を目的とした新しい課題である医用画像推論セグメンテーションを紹介する。
そこで本稿では,MLLMの推論能力を利用して臨床問題を理解するエンドツーエンドフレームワークであるMedSeg-Rを提案する。
1)画像の解釈と複雑な医用命令の理解を行い,マルチモーダルな中間トークンを生成するグローバルコンテキスト理解モジュール,2)これらのトークンをデコードして正確なセグメンテーションマスクを生成するピクセルレベルのグラウンドモジュールである。
論文 参考訳(メタデータ) (2025-06-12T08:13:38Z) - Learnable Prompting SAM-induced Knowledge Distillation for Semi-supervised Medical Image Segmentation [47.789013598970925]
半教師型医用画像分割のための知識蒸留フレームワークKnowSAMを提案する。
我々のモデルは最先端の半教師付きセグメンテーションアプローチより優れている。
論文 参考訳(メタデータ) (2024-12-18T11:19:23Z) - MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - MedCLIP-SAMv2: Towards Universal Text-Driven Medical Image Segmentation [2.2585213273821716]
MedCLIP-SAMv2はCLIPとSAMモデルを統合して臨床スキャンのセグメンテーションを行う新しいフレームワークである。
提案手法は,DHN-NCE(Decoupled Hard Negative Noise Contrastive Estimation)によるBiomedCLIPモデルの微調整を含む。
また,ゼロショットセグメンテーションラベルを弱教師付きパラダイム内で使用することにより,セグメンテーション品質をさらに向上する。
論文 参考訳(メタデータ) (2024-09-28T23:10:37Z) - MedCLIP-SAM: Bridging Text and Image Towards Universal Medical Image Segmentation [2.2585213273821716]
本稿では,CLIPモデルとSAMモデルを組み合わせて臨床スキャンのセグメンテーションを生成する新しいフレームワーク MedCLIP-SAM を提案する。
3つの多様なセグメンテーションタスクと医用画像モダリティを広範囲にテストすることにより、提案手法は優れた精度を示した。
論文 参考訳(メタデータ) (2024-03-29T15:59:11Z) - Dual-scale Enhanced and Cross-generative Consistency Learning for Semi-supervised Medical Image Segmentation [49.57907601086494]
医用画像のセグメンテーションはコンピュータ支援診断において重要な役割を担っている。
半教師型医用画像(DEC-Seg)のための新しいDual-scale Enhanced and Cross-generative consistency learning frameworkを提案する。
論文 参考訳(メタデータ) (2023-12-26T12:56:31Z) - SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation [66.21356751558011]
Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
本稿では,楽器構造知識をSAMの汎用知識と明確に統合する新しいSAM効率的なチューニング手法であるStuial Part-SAMを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:17:51Z) - I-MedSAM: Implicit Medical Image Segmentation with Segment Anything [24.04558900909617]
提案するI-MedSAMは、連続表現とSAMの両方の利点を利用して、クロスドメイン能力と正確な境界線を求める。
トレーニング可能なパラメータが1.6Mしかない提案手法は、離散的および暗黙的を含む既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-28T00:43:52Z) - Multi-Prompt Fine-Tuning of Foundation Models for Enhanced Medical Image
Segmentation [10.946806607643689]
Segment Anything Model (SAM) は、自然画像セグメンテーションの革命的進歩を導入した強力な基礎モデルである。
本研究では,SAMのイメージ毎に複数のプロンプトをバンドルして処理する機能を活用した,新しい微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-03T19:05:00Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - SamDSK: Combining Segment Anything Model with Domain-Specific Knowledge
for Semi-Supervised Learning in Medical Image Segmentation [27.044797468878837]
Segment Anything Model (SAM)は、自然画像に広範囲のオブジェクトを分割する機能を示す。
本稿では、SAMとドメイン固有の知識を組み合わせて、ラベルなし画像の信頼性の高い利用法を提案する。
本研究は,医用画像セグメンテーションのための半教師あり学習の新たな方向性を創出する。
論文 参考訳(メタデータ) (2023-08-26T04:46:10Z) - Medical SAM Adapter: Adapting Segment Anything Model for Medical Image
Segmentation [51.770805270588625]
Segment Anything Model (SAM)は画像セグメンテーションの分野で最近人気を集めている。
近年の研究では、SAMは医用画像のセグメンテーションにおいて過小評価されている。
ドメイン固有の医療知識をセグメンテーションモデルに組み込んだ医療SAMアダプタ(Med-SA)を提案する。
論文 参考訳(メタデータ) (2023-04-25T07:34:22Z) - Self-Supervised Correction Learning for Semi-Supervised Biomedical Image
Segmentation [84.58210297703714]
半教師付きバイオメディカルイメージセグメンテーションのための自己教師付き補正学習パラダイムを提案する。
共有エンコーダと2つの独立デコーダを含むデュアルタスクネットワークを設計する。
異なるタスクのための3つの医用画像分割データセットの実験により,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2023-01-12T08:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。