論文の概要: FastSAM3D: An Efficient Segment Anything Model for 3D Volumetric Medical Images
- arxiv url: http://arxiv.org/abs/2403.09827v1
- Date: Thu, 14 Mar 2024 19:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 21:15:39.830166
- Title: FastSAM3D: An Efficient Segment Anything Model for 3D Volumetric Medical Images
- Title(参考訳): FastSAM3D:3Dボリューム・メディカル・イメージのための効率的なセグメンテーションモデル
- Authors: Yiqing Shen, Jingxing Li, Xinyuan Shao, Blanca Inigo Romillo, Ankush Jindal, David Dreizin, Mathias Unberath,
- Abstract要約: NVIDIA A100 GPU上の128*128*128の3Dボリューム画像に対して,SAM推論を8ミリ秒に高速化するFastSAM3Dを提案する。
FastSAM3Dは2D SAMと8.75倍の527.38倍で、同じボリュームの3D SAMは性能が著しく低下しない。
- 参考スコア(独自算出の注目度): 7.2993352400518035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Segment anything models (SAMs) are gaining attention for their zero-shot generalization capability in segmenting objects of unseen classes and in unseen domains when properly prompted. Interactivity is a key strength of SAMs, allowing users to iteratively provide prompts that specify objects of interest to refine outputs. However, to realize the interactive use of SAMs for 3D medical imaging tasks, rapid inference times are necessary. High memory requirements and long processing delays remain constraints that hinder the adoption of SAMs for this purpose. Specifically, while 2D SAMs applied to 3D volumes contend with repetitive computation to process all slices independently, 3D SAMs suffer from an exponential increase in model parameters and FLOPS. To address these challenges, we present FastSAM3D which accelerates SAM inference to 8 milliseconds per 128*128*128 3D volumetric image on an NVIDIA A100 GPU. This speedup is accomplished through 1) a novel layer-wise progressive distillation scheme that enables knowledge transfer from a complex 12-layer ViT-B to a lightweight 6-layer ViT-Tiny variant encoder without training from scratch; and 2) a novel 3D sparse flash attention to replace vanilla attention operators, substantially reducing memory needs and improving parallelization. Experiments on three diverse datasets reveal that FastSAM3D achieves a remarkable speedup of 527.38x compared to 2D SAMs and 8.75x compared to 3D SAMs on the same volumes without significant performance decline. Thus, FastSAM3D opens the door for low-cost truly interactive SAM-based 3D medical imaging segmentation with commonly used GPU hardware. Code is available at https://github.com/arcadelab/FastSAM3D.
- Abstract(参考訳): Segment Any Model(SAM)は、目に見えないクラスのセグメンテーションオブジェクトや、適切に誘導された未確認領域において、ゼロショットの一般化能力のために注目を集めている。
対話性はSAMの重要な強みであり、ユーザは出力を洗練するために興味のあるオブジェクトを指定するプロンプトを反復的に提供できる。
しかし,3次元医用画像処理タスクにおけるSAMの対話的利用を実現するためには,高速な推論時間が必要である。
高いメモリ要件と長い処理遅延は、この目的のためにSAMの採用を妨げる制約のままである。
具体的には、3Dボリュームに適用された2DSAMは、全てのスライスを独立に処理するための反復計算と競合するが、3DSAMはモデルパラメータとFLOPSの指数的な増加に悩まされる。
これらの課題に対処するために、NVIDIA A100 GPU上でSAM推論を8ミリ秒/18*128*128のボリューム画像に高速化するFastSAM3Dを提案する。
このスピードアップは達成される
1) 複雑な12層型ViT-Bから6層型6層型ViT-Tinyエンコーダへの知識伝達をスクラッチからトレーニングすることなく行うことができる新しい層ワイド・プログレッシブ蒸留方式
2)バニラアテンション演算子に代わる新しい3次元スパースフラッシュアテンションにより、メモリ需要を大幅に削減し、並列化を向上する。
3つの多様なデータセットの実験により、FastSAM3Dは2DSAMに比べて527.38倍、同じボリュームの3DSAMでは8.75倍のスピードアップを達成した。
したがって、FastSAM3Dは、一般的に使われているGPUハードウェアを使った、低コストでインタラクティブなSAMベースの3D医療画像セグメンテーションのための扉を開く。
コードはhttps://github.com/arcadelab/FastSAM3Dで入手できる。
関連論文リスト
- EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。
私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。
計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文 参考訳(メタデータ) (2025-01-13T12:11:07Z) - Memorizing SAM: 3D Medical Segment Anything Model with Memorizing Transformer [8.973249762345793]
本稿では,メモリトランスフォーマーをプラグインとして組み込んだ新しい3DSAMアーキテクチャであるMemorizing SAMを提案する。
トレーニングや推論中に内部表現を保存した従来の記憶変換器とは異なり、Memorizing SAMは既存の高精度な内部表現をメモリソースとして利用しています。
我々はTotalSegmentatorデータセットから,33カテゴリのSAMの記憶性能を評価し,Memorizing SAMは,平均Dice増加率11.36%,推論時間4.38ミリ秒のコストで,最先端の3D SAMの変種であるFastSAM3Dより優れていることを示した。
論文 参考訳(メタデータ) (2024-12-18T14:51:25Z) - Lightweight Method for Interactive 3D Medical Image Segmentation with Multi-Round Result Fusion [7.158573385931718]
Segment Anything Model (SAM) は、インタラクティブセグメンテーションにおけるゼロショットの一般化機能により、広く注目を集めている。
コンパクトCNNモデルの可能性を示す新しいアプローチとして、3次元医用画像のための軽量インタラクティブネットワーク(LIM-Net)を提案する。
LIM-Netは、ユーザヒントから2Dプロンプトマスクを生成することによってセグメンテーションを開始する。
SAMベースのモデルと比較して、より強力な一般化が示され、競争精度が向上する一方で、より少ない相互作用が要求される。
論文 参考訳(メタデータ) (2024-12-11T11:52:16Z) - SAM2Point: Segment Any 3D as Videos in Zero-shot and Promptable Manners [87.76470518069338]
SAM2Pointは,Segment Anything Model 2 (SAM2) に適応した予備的な探索手法である。
本フレームワークは3Dポイントやボックス,マスクなど,さまざまなプロンプトタイプをサポートし,3Dオブジェクトや屋内シーン,疎外環境,生のLiDARなど,さまざまなシナリオを一般化することができる。
我々の知る限り、SAMの3Dにおける最も忠実な実装は、3Dセグメンテーションにおける将来の研究の出発点となるかもしれない。
論文 参考訳(メタデータ) (2024-08-29T17:59:45Z) - EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Towards a Comprehensive, Efficient and Promptable Anatomic Structure Segmentation Model using 3D Whole-body CT Scans [23.573958232965104]
Segment Any Model (SAM) は、自然画像のセグメンテーションに強い一般化能力を示す。
我々はCT-SAM3Dという全身CTセグメント化のための包括的でスケーラブルな3次元SAMモデルを提案する。
CT-SAM3Dは107体の解剖を含む1204個のCTスキャンによって訓練されている。
論文 参考訳(メタデータ) (2024-03-22T09:40:52Z) - SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration [6.515075311704396]
Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。
我々はSAMの亜種であるSAM-Lighteningを紹介し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴としている。
COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法よりも大幅に優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-03-14T09:07:34Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - RepViT-SAM: Towards Real-Time Segmenting Anything [71.94042743317937]
Segment Anything Model (SAM) は、様々なコンピュータビジョンタスクに対して印象的なゼロショット転送性能を示した。
MobileSAMは蒸留を用いてSAMの重い画像エンコーダをTinyViTに置き換えることを提案する。
RepViT-SAMはMobileSAMよりもはるかに優れたゼロショット転送機能を持ち、推論速度は10倍近い。
論文 参考訳(メタデータ) (2023-12-10T04:42:56Z) - SAMPro3D: Locating SAM Prompts in 3D for Zero-Shot Instance Segmentation [24.733049281032272]
3DシーンのゼロショットインスタンスセグメンテーションにSAMPro3Dを導入する。
提案手法は,2次元フレームに事前訓練されたセグメンション任意のモデル(SAM)を適用することで,3次元インスタンスをセグメント化する。
提案手法は,従来のゼロショットや完全教師付きアプローチと比較して,同等あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2023-11-29T15:11:03Z) - TomoSAM: a 3D Slicer extension using SAM for tomography segmentation [62.997667081978825]
TomoSAMは、最先端のSegment Anything Model(SAM)を3Dスライダに統合するために開発された。
SAMは、オブジェクトを識別し、ゼロショットで画像マスクを作成することができる、迅速なディープラーニングモデルである。
これらのツール間のシナジーは、トモグラフィや他のイメージング技術からの複雑な3Dデータセットのセグメンテーションに役立つ。
論文 参考訳(メタデータ) (2023-06-14T16:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。