論文の概要: FastSAM3D: An Efficient Segment Anything Model for 3D Volumetric Medical Images
- arxiv url: http://arxiv.org/abs/2403.09827v1
- Date: Thu, 14 Mar 2024 19:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 21:15:39.830166
- Title: FastSAM3D: An Efficient Segment Anything Model for 3D Volumetric Medical Images
- Title(参考訳): FastSAM3D:3Dボリューム・メディカル・イメージのための効率的なセグメンテーションモデル
- Authors: Yiqing Shen, Jingxing Li, Xinyuan Shao, Blanca Inigo Romillo, Ankush Jindal, David Dreizin, Mathias Unberath,
- Abstract要約: NVIDIA A100 GPU上の128*128*128の3Dボリューム画像に対して,SAM推論を8ミリ秒に高速化するFastSAM3Dを提案する。
FastSAM3Dは2D SAMと8.75倍の527.38倍で、同じボリュームの3D SAMは性能が著しく低下しない。
- 参考スコア(独自算出の注目度): 7.2993352400518035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Segment anything models (SAMs) are gaining attention for their zero-shot generalization capability in segmenting objects of unseen classes and in unseen domains when properly prompted. Interactivity is a key strength of SAMs, allowing users to iteratively provide prompts that specify objects of interest to refine outputs. However, to realize the interactive use of SAMs for 3D medical imaging tasks, rapid inference times are necessary. High memory requirements and long processing delays remain constraints that hinder the adoption of SAMs for this purpose. Specifically, while 2D SAMs applied to 3D volumes contend with repetitive computation to process all slices independently, 3D SAMs suffer from an exponential increase in model parameters and FLOPS. To address these challenges, we present FastSAM3D which accelerates SAM inference to 8 milliseconds per 128*128*128 3D volumetric image on an NVIDIA A100 GPU. This speedup is accomplished through 1) a novel layer-wise progressive distillation scheme that enables knowledge transfer from a complex 12-layer ViT-B to a lightweight 6-layer ViT-Tiny variant encoder without training from scratch; and 2) a novel 3D sparse flash attention to replace vanilla attention operators, substantially reducing memory needs and improving parallelization. Experiments on three diverse datasets reveal that FastSAM3D achieves a remarkable speedup of 527.38x compared to 2D SAMs and 8.75x compared to 3D SAMs on the same volumes without significant performance decline. Thus, FastSAM3D opens the door for low-cost truly interactive SAM-based 3D medical imaging segmentation with commonly used GPU hardware. Code is available at https://github.com/arcadelab/FastSAM3D.
- Abstract(参考訳): Segment Any Model(SAM)は、目に見えないクラスのセグメンテーションオブジェクトや、適切に誘導された未確認領域において、ゼロショットの一般化能力のために注目を集めている。
対話性はSAMの重要な強みであり、ユーザは出力を洗練するために興味のあるオブジェクトを指定するプロンプトを反復的に提供できる。
しかし,3次元医用画像処理タスクにおけるSAMの対話的利用を実現するためには,高速な推論時間が必要である。
高いメモリ要件と長い処理遅延は、この目的のためにSAMの採用を妨げる制約のままである。
具体的には、3Dボリュームに適用された2DSAMは、全てのスライスを独立に処理するための反復計算と競合するが、3DSAMはモデルパラメータとFLOPSの指数的な増加に悩まされる。
これらの課題に対処するために、NVIDIA A100 GPU上でSAM推論を8ミリ秒/18*128*128のボリューム画像に高速化するFastSAM3Dを提案する。
このスピードアップは達成される
1) 複雑な12層型ViT-Bから6層型6層型ViT-Tinyエンコーダへの知識伝達をスクラッチからトレーニングすることなく行うことができる新しい層ワイド・プログレッシブ蒸留方式
2)バニラアテンション演算子に代わる新しい3次元スパースフラッシュアテンションにより、メモリ需要を大幅に削減し、並列化を向上する。
3つの多様なデータセットの実験により、FastSAM3Dは2DSAMに比べて527.38倍、同じボリュームの3DSAMでは8.75倍のスピードアップを達成した。
したがって、FastSAM3Dは、一般的に使われているGPUハードウェアを使った、低コストでインタラクティブなSAMベースの3D医療画像セグメンテーションのための扉を開く。
コードはhttps://github.com/arcadelab/FastSAM3Dで入手できる。
関連論文リスト
- SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners [87.76470518069338]
SAM2Pointは,Segment Anything Model 2 (SAM2) に適応した予備的な探索手法である。
本フレームワークは3Dポイントやボックス,マスクなど,さまざまなプロンプトタイプをサポートし,3Dオブジェクトや屋内シーン,疎外環境,生のLiDARなど,さまざまなシナリオを一般化することができる。
我々の知る限り、SAMの3Dにおける最も忠実な実装は、3Dセグメンテーションにおける将来の研究の出発点となるかもしれない。
論文 参考訳(メタデータ) (2024-08-29T17:59:45Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - Interactive 3D Medical Image Segmentation with SAM 2 [17.523874868612577]
ビデオで訓練した次世代のMeta SAMモデルSAM 2のゼロショット機能について, 医用画像のセグメンテーションについて検討する。
3D画像のシーケンシャルな2Dスライスをビデオフレームとして扱うことで、SAM 2は単一のフレームから3Dボリューム全体へのアノテーションの完全な伝達を可能にする。
論文 参考訳(メタデータ) (2024-08-05T16:58:56Z) - Towards a Comprehensive, Efficient and Promptable Anatomic Structure Segmentation Model using 3D Whole-body CT Scans [23.573958232965104]
Segment Any Model (SAM) は、自然画像のセグメンテーションにおける強力な能力の一般化を示す。
3D放射線CTまたはMRIスキャンを分割するには、2D SAMモデルは数百の2Dスライスを別々に処理する必要がある。
我々はCT-SAM3Dという全身CTセグメント化のための包括的でスケーラブルな3次元SAMモデルを提案する。
論文 参考訳(メタデータ) (2024-03-22T09:40:52Z) - SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration [6.515075311704396]
Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。
我々はSAMの亜種であるSAM-Lighteningを紹介し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴としている。
COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法よりも大幅に優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-03-14T09:07:34Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - RepViT-SAM: Towards Real-Time Segmenting Anything [71.94042743317937]
Segment Anything Model (SAM) は、様々なコンピュータビジョンタスクに対して印象的なゼロショット転送性能を示した。
MobileSAMは蒸留を用いてSAMの重い画像エンコーダをTinyViTに置き換えることを提案する。
RepViT-SAMはMobileSAMよりもはるかに優れたゼロショット転送機能を持ち、推論速度は10倍近い。
論文 参考訳(メタデータ) (2023-12-10T04:42:56Z) - TomoSAM: a 3D Slicer extension using SAM for tomography segmentation [62.997667081978825]
TomoSAMは、最先端のSegment Anything Model(SAM)を3Dスライダに統合するために開発された。
SAMは、オブジェクトを識別し、ゼロショットで画像マスクを作成することができる、迅速なディープラーニングモデルである。
これらのツール間のシナジーは、トモグラフィや他のイメージング技術からの複雑な3Dデータセットのセグメンテーションに役立つ。
論文 参考訳(メタデータ) (2023-06-14T16:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。