論文の概要: MaskSAM: Towards Auto-prompt SAM with Mask Classification for Medical Image Segmentation
- arxiv url: http://arxiv.org/abs/2403.14103v1
- Date: Thu, 21 Mar 2024 03:28:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 15:36:52.235705
- Title: MaskSAM: Towards Auto-prompt SAM with Mask Classification for Medical Image Segmentation
- Title(参考訳): MaskSAM:医療画像セグメンテーションのためのマスク分類によるオートプロンプトSAMを目指して
- Authors: Bin Xie, Hao Tang, Bin Duan, Dawen Cai, Yan Yan,
- Abstract要約: MaskSAMは、医療画像セグメンテーションのためのマスク分類プロンプトフリー適応フレームワークである。
本手法は,AMOS2022,90.52%のDice上での最先端性能を実現し,nnUNetに比べて2.7%向上した。
- 参考スコア(独自算出の注目度): 18.125292369318576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Model~(SAM), a prompt-driven foundation model for natural image segmentation, has demonstrated impressive zero-shot performance. However, SAM does not work when directly applied to medical image segmentation tasks, since SAM lacks the functionality to predict semantic labels for predicted masks and needs to provide extra prompts, such as points or boxes, to segment target regions. Meanwhile, there is a huge gap between 2D natural images and 3D medical images, so the performance of SAM is imperfect for medical image segmentation tasks. Following the above issues, we propose MaskSAM, a novel mask classification prompt-free SAM adaptation framework for medical image segmentation. We design a prompt generator combined with the image encoder in SAM to generate a set of auxiliary classifier tokens, auxiliary binary masks, and auxiliary bounding boxes. Each pair of auxiliary mask and box prompts, which can solve the requirements of extra prompts, is associated with class label predictions by the sum of the auxiliary classifier token and the learnable global classifier tokens in the mask decoder of SAM to solve the predictions of semantic labels. Meanwhile, we design a 3D depth-convolution adapter for image embeddings and a 3D depth-MLP adapter for prompt embeddings. We inject one of them into each transformer block in the image encoder and mask decoder to enable pre-trained 2D SAM models to extract 3D information and adapt to 3D medical images. Our method achieves state-of-the-art performance on AMOS2022, 90.52% Dice, which improved by 2.7% compared to nnUNet. Our method surpasses nnUNet by 1.7% on ACDC and 1.0% on Synapse datasets.
- Abstract(参考訳): Segment Anything Model~(SAM)は、自然画像セグメンテーションのためのプロンプト駆動基礎モデルであり、印象的なゼロショット性能を示している。
しかしSAMは、予測されたマスクのセマンティックラベルを予測する機能がなく、ターゲット領域をセグメント化するためにポイントやボックスのような追加のプロンプトを提供する必要があるため、医療画像のセマンティクスタスクに直接適用しても機能しない。
一方、2次元の自然画像と3次元の医用画像の間には大きなギャップがあり、SAMの性能は医用画像分割作業には不十分である。
以上の課題に続き、医用画像セグメンテーションのための新しいマスク分類プロンプトフリーSAM適応フレームワークであるMaskSAMを提案する。
我々はSAMのイメージエンコーダと組み合わされたプロンプトジェネレータを設計し、補助的な分類器トークン、補助的なバイナリマスク、補助的なバウンディングボックスを生成する。
余分なプロンプトの要求を解決できる補助マスクとボックスプロンプトのペアは、SAMのマスクデコーダにおける補助分類器トークンと学習可能なグローバル分類器トークンの合計によるクラスラベル予測と関連付けられ、セマンティックラベルの予測が解決される。
一方,画像埋め込みのための3次元深度変換アダプタと,迅速な埋め込みのための3次元深度MLPアダプタを設計する。
画像エンコーダとマスクデコーダの各トランスバータブロックにそれらのうちの1つを注入し、事前訓練された2DSAMモデルで3D情報を抽出し、3D医療画像に適応させる。
本手法はAMOS2022, 90.52% Diceの最先端性能を実現し, nnUNetに比べて2.7%向上した。
提案手法は,ACDCで1.7%,Synapseデータセットで1.0%,nnUNetを1.7%超える。
関連論文リスト
- SAM-MPA: Applying SAM to Few-shot Medical Image Segmentation using Mask Propagation and Auto-prompting [6.739803086387235]
医用画像のセグメンテーションは、しばしば高額なアノテーションコストの課題に直面している。
本稿では,10億枚以上のマスクで事前学習したセグメンション・アプライシング・モデル(SAM)を活用することを提案する。
SAM-MPA は,医療画像の断片化のためのイノベーティブな SAM ベースのフレームワークである。
論文 参考訳(メタデータ) (2024-11-26T12:12:12Z) - DB-SAM: Delving into High Quality Universal Medical Image Segmentation [100.63434169944853]
本稿では,2次元医療データと2次元医療データとのギャップを埋めるために,DB-SAMという二分岐型SAMフレームワークを提案する。
文献における最近の医療用SAMアダプタと比較して,DB-SAMは8.8%向上した。
論文 参考訳(メタデータ) (2024-10-05T14:36:43Z) - Unleashing the Potential of SAM for Medical Adaptation via Hierarchical Decoding [15.401507589312702]
本稿では,医療画像の高速微調整のためのSegment Anything Model (SAM) の即時適応であるH-SAMを紹介する。
初期段階では、H-SAMはSAMのオリジナルのデコーダを使用して、より複雑なデコードプロセスの導出として、以前の確率マスクを生成する。
我々のH-SAMは、既存のプロンプトフリーSAMよりも平均Diceが4.78%改善していることを示す。
論文 参考訳(メタデータ) (2024-03-27T05:55:16Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - How to Efficiently Adapt Large Segmentation Model(SAM) to Medical Images [15.181219203629643]
Segment Anything (SAM)は、自然画像のゼロショットセグメンテーションにおいて印象的な機能を示す。
しかし、医療画像に適用すると、SAMは顕著なパフォーマンス低下に悩まされる。
本研究では,SAMエンコーダを凍結し,軽量なタスク固有予測ヘッドを微調整することを提案する。
論文 参考訳(メタデータ) (2023-06-23T18:34:30Z) - TomoSAM: a 3D Slicer extension using SAM for tomography segmentation [62.997667081978825]
TomoSAMは、最先端のSegment Anything Model(SAM)を3Dスライダに統合するために開発された。
SAMは、オブジェクトを識別し、ゼロショットで画像マスクを作成することができる、迅速なディープラーニングモデルである。
これらのツール間のシナジーは、トモグラフィや他のイメージング技術からの複雑な3Dデータセットのセグメンテーションに役立つ。
論文 参考訳(メタデータ) (2023-06-14T16:13:27Z) - AutoSAM: Adapting SAM to Medical Images by Overloading the Prompt
Encoder [101.28268762305916]
この作業では、Segment Anything Modelを同じ入力イメージで動作するエンコーダに置き換える。
複数の医用画像とビデオのベンチマークで最先端の結果を得る。
内部の知識を検査し、軽量なセグメンテーションソリューションを提供するために、浅いデコンボリューションネットワークによってマスクに復号化することを学ぶ。
論文 参考訳(メタデータ) (2023-06-10T07:27:00Z) - Segment Anything in High Quality [116.39405160133315]
そこで本研究では,SAM のプロンプト可能な設計,効率,ゼロショットの一般化性を維持しつつ,任意のオブジェクトを正確にセグメント化できる HQ-SAM を提案する。
注意深い設計はSAMの事前訓練されたモデルの重みを再利用し、保存し、最小限の追加パラメータと計算しか導入しない。
ダウンストリームタスクにまたがる10種類のセグメンテーションデータセットでHQ-SAMの有効性を示し,そのうち8つをゼロショット転送プロトコルで評価した。
論文 参考訳(メタデータ) (2023-06-02T14:23:59Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。