論文の概要: Diffusion-empowered AutoPrompt MedSAM
- arxiv url: http://arxiv.org/abs/2502.06817v1
- Date: Wed, 05 Feb 2025 03:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:05:49.950294
- Title: Diffusion-empowered AutoPrompt MedSAM
- Title(参考訳): 拡散駆動型オートプロンプトメドSAM
- Authors: Peng Huang, Shu Hu, Bo Peng, Jiashu Zhang, Hongtu Zhu, Xi Wu, Xin Wang,
- Abstract要約: 本稿では,ユーザビリティとセグメンテーション性能を向上させるために,SAMから派生したエンドツーエンドフレームワークであるAutoMedSAMを提案する。
AutoMedSAMは、新しい拡散ベースのクラスプロンプトエンコーダを導入しながら、MedSAMのイメージエンコーダとマスクデコーダ構造を維持している。
我々は,AutoMedSAMが臨床および非専門ユーザの両方に適用性を高めつつ,優れた性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 23.450625203821716
- License:
- Abstract: MedSAM, a medical foundation model derived from the SAM architecture, has demonstrated notable success across diverse medical domains. However, its clinical application faces two major challenges: the dependency on labor-intensive manual prompt generation, which imposes a significant burden on clinicians, and the absence of semantic labeling in the generated segmentation masks for organs or lesions, limiting its practicality for non-expert users. To address these limitations, we propose AutoMedSAM, an end-to-end framework derived from SAM, designed to enhance usability and segmentation performance. AutoMedSAM retains MedSAM's image encoder and mask decoder structure while introducing a novel diffusion-based class prompt encoder. The diffusion-based encoder employs a dual-decoder structure to collaboratively generate prompt embeddings guided by sparse and dense prompt definitions. These embeddings enhance the model's ability to understand and process clinical imagery autonomously. With this encoder, AutoMedSAM leverages class prompts to embed semantic information into the model's predictions, transforming MedSAM's semi-automated pipeline into a fully automated workflow. Furthermore, AutoMedSAM employs an uncertainty-aware joint optimization strategy during training to effectively inherit MedSAM's pre-trained knowledge while improving generalization by integrating multiple loss functions. Experimental results across diverse datasets demonstrate that AutoMedSAM achieves superior performance while broadening its applicability to both clinical settings and non-expert users. Code is available at https://github.com/HP-ML/AutoPromptMedSAM.git.
- Abstract(参考訳): SAMアーキテクチャから派生した医療基盤モデルであるMedSAMは、様々な医療領域で顕著な成功を収めている。
しかし、その臨床応用は2つの大きな課題に直面している: 労働集約的な手動プロンプト生成への依存は、臨床医に重大な負担を課し、また、臓器や病変のために生成されたセグメンテーションマスクにセグメンテーションラベリングが欠如しており、その実用性は非専門家に限られている。
これらの制約に対処するため,ユーザビリティとセグメンテーション性能を向上させるために,SAMから派生したエンドツーエンドフレームワークであるAutoMedSAMを提案する。
AutoMedSAMは、新しい拡散ベースのクラスプロンプトエンコーダを導入しながら、MedSAMのイメージエンコーダとマスクデコーダ構造を維持している。
拡散に基づくエンコーダは二重デコーダ構造を用いて、疎密かつ密なプロンプト定義によって導かれるプロンプト埋め込みを協調的に生成する。
これらの埋め込みは、臨床的イメージを自律的に理解し、処理するモデルの能力を高める。
このエンコーダでAutoMedSAMは、セマンティック情報をモデルの予測に組み込むためのクラスプロンプトを活用し、MedSAMの半自動パイプラインを完全に自動化されたワークフローに変換する。
さらに、AutoMedSAMはトレーニング中に不確実性を考慮した共同最適化戦略を採用し、MedSAMの事前学習知識を効果的に継承すると同時に、複数の損失関数を統合することで一般化を改善する。
さまざまなデータセットにわたる実験結果から、AutoMedSAMは、臨床設定と非専門家ユーザの両方に適用性を広げながら、優れたパフォーマンスを達成することが示された。
コードはhttps://github.com/HP-ML/AutoPromptMedSAM.gitで入手できる。
関連論文リスト
- Learnable Prompting SAM-induced Knowledge Distillation for Semi-supervised Medical Image Segmentation [47.789013598970925]
半教師型医用画像分割のための知識蒸留フレームワークKnowSAMを提案する。
我々のモデルは最先端の半教師付きセグメンテーションアプローチより優れている。
論文 参考訳(メタデータ) (2024-12-18T11:19:23Z) - SEG-SAM: Semantic-Guided SAM for Unified Medical Image Segmentation [13.037264314135033]
本稿ではセマンティックガイドSAM(SEG-SAM)を提案する。
まず、バイナリとセマンティック予測の潜在的な衝突を避けるために、SAMの元々のデコーダとは独立にセマンティック・アウェア・デコーダを導入する。
我々は、大規模言語モデルから医療カテゴリーの重要な特徴を抽出し、テキスト・ツー・ビジョン・セマンティック・モジュールを通じてSEG-SAMに組み込む。
最後に、SEG-SAMの2つのデコーダから予測されたマスク間の重なり合いを促進するために、マスク間空間アライメント戦略を導入する。
論文 参考訳(メタデータ) (2024-12-17T08:29:13Z) - ESP-MedSAM: Efficient Self-Prompting SAM for Universal Domain-Generalized Medical Image Segmentation [18.388979166848962]
Segment Anything Model (SAM)は両方の設定でその可能性を実証している。
ESP-MedSAM という汎用的な領域一般化医療画像分割のための効率的なセルフプロンプトSAM を提案する。
ESP-MedSAMは様々な医用画像のセグメンテーションタスクにおいて最先端の成果を上げている。
論文 参考訳(メタデータ) (2024-07-19T09:32:30Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - Unleashing the Potential of SAM for Medical Adaptation via Hierarchical Decoding [15.401507589312702]
本稿では,医療画像の高速微調整のためのSegment Anything Model (SAM) の即時適応であるH-SAMを紹介する。
初期段階では、H-SAMはSAMのオリジナルのデコーダを使用して、より複雑なデコードプロセスの導出として、以前の確率マスクを生成する。
我々のH-SAMは、既存のプロンプトフリーSAMよりも平均Diceが4.78%改善していることを示す。
論文 参考訳(メタデータ) (2024-03-27T05:55:16Z) - SAMCT: Segment Any CT Allowing Labor-Free Task-Indicator Prompts [28.171383990186904]
我々は、公開データセットから1.1MのCT画像と5Mのマスクからなる大規模なCTデータセットを構築した。
我々は、労働自由なプロンプトを可能にする強力な基盤モデルSAMCTを提案する。
SAMに基づいてSAMCTはさらに、CNNイメージエンコーダ、クロスブランチインタラクションモジュール、タスクインディケータプロンプトエンコーダを備えている。
論文 参考訳(メタデータ) (2024-03-20T02:39:15Z) - UN-SAM: Universal Prompt-Free Segmentation for Generalized Nuclei Images [47.59627416801523]
デジタル病理学において、正確な核分割は、組織の種類、染色プロトコル、イメージング条件の多様性によって、重要な課題である。
我々はUniversal prompt-free SAM framework for Nuclei segmentation (UN-SAM)を提案する。
例外的な性能を持つUN-SAMは、核インスタンスやセマンティックセグメンテーションの最先端、特にゼロショットシナリオにおける一般化能力を上回っている。
論文 参考訳(メタデータ) (2024-02-26T15:35:18Z) - SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation [66.21356751558011]
Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
本稿では,楽器構造知識をSAMの汎用知識と明確に統合する新しいSAM効率的なチューニング手法であるStuial Part-SAMを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:17:51Z) - SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation [65.52097667738884]
そこで本研究では,SAMの知識と外科的特異的情報を統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介した。
具体的には,タイピングのための軽量なプロトタイプベースクラスプロンプトエンコーダを提案し,クラスプロトタイプから直接プロンプト埋め込みを生成する。
また,手術器具カテゴリー間のクラス間差異の低さに対応するために,コントラッシブなプロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2023-08-17T02:51:01Z) - AutoSAM: Adapting SAM to Medical Images by Overloading the Prompt
Encoder [101.28268762305916]
この作業では、Segment Anything Modelを同じ入力イメージで動作するエンコーダに置き換える。
複数の医用画像とビデオのベンチマークで最先端の結果を得る。
内部の知識を検査し、軽量なセグメンテーションソリューションを提供するために、浅いデコンボリューションネットワークによってマスクに復号化することを学ぶ。
論文 参考訳(メタデータ) (2023-06-10T07:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。