論文の概要: SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration
- arxiv url: http://arxiv.org/abs/2403.09195v1
- Date: Thu, 14 Mar 2024 09:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 21:16:56.395579
- Title: SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration
- Title(参考訳): SAM-Lightening:30倍の加速を実現するために、フラッシュを拡張した軽量セグメンテーションモデル
- Authors: Yanfei Songa, Bangzheng Pua, Peng Wanga, Hongxu Jiang, Dong Donga, Yiqing Shen,
- Abstract要約: Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。
我々はSAMの亜種であるSAM-Lighteningを紹介し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴としている。
COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法よりも大幅に優れていることが明らかになった。
- 参考スコア(独自算出の注目度): 3.3744656921839757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Model (SAM) has garnered significant attention in segmentation tasks due to their zero-shot generalization ability. However, a broader application of SAMs to real-world practice has been restricted by their low inference speed and high computational memory demands, which mainly stem from the attention mechanism. Existing work concentrated on optimizing the encoder, yet has not adequately addressed the inefficiency of the attention mechanism itself, even when distilled to a smaller model, which thus leaves space for further improvement. In response, we introduce SAM-Lightening, a variant of SAM, that features a re-engineered attention mechanism, termed Dilated Flash Attention. It not only facilitates higher parallelism, enhancing processing efficiency but also retains compatibility with the existing FlashAttention. Correspondingly, we propose a progressive distillation to enable an efficient knowledge transfer from the vanilla SAM without costly training from scratch. Experiments on COCO and LVIS reveal that SAM-Lightening significantly outperforms the state-of-the-art methods in both run-time efficiency and segmentation accuracy. Specifically, it can achieve an inference speed of 7 milliseconds (ms) per image, for images of size 1024*1024 pixels, which is 30.1 times faster than the vanilla SAM and 2.1 times than the state-of-the-art. Moreover, it takes only 244MB memory, which is 3.5\% of the vanilla SAM. The code and weights are available at https://anonymous.4open.science/r/SAM-LIGHTENING-BC25/.
- Abstract(参考訳): Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。
しかし、SAMの現実の実践への広範な応用は、その低推論速度と、主に注意機構に由来する高い計算メモリ要求によって制限されている。
既存の作業はエンコーダの最適化に集中しているが、小さいモデルに蒸留してもアテンション機構自体の非効率性には十分対応していない。
これに対し、SAMの亜種であるSAM-Lighteningを導入し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴とする。
並列性が向上し、処理効率が向上するだけでなく、既存のFlashAttentionとの互換性も維持される。
そこで本研究では,バニラSAMからの効率的な知識伝達を,スクラッチからコストのかかる訓練を伴わずに行うための,プログレッシブ蒸留法を提案する。
COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法を著しく上回っていることが明らかとなった。
具体的には、バニラSAMの30.1倍、最先端の2.1倍の1024*1024ピクセルのイメージに対して、画像当たり7ミリ秒(ms)の推論速度を達成することができる。
さらに、バニラSAMの3.5倍の244MBのメモリしか必要としない。
コードとウェイトはhttps://anonymous.4open.science/r/SAM-LIGHTENING-BC25/で公開されている。
関連論文リスト
- FastSAM3D: An Efficient Segment Anything Model for 3D Volumetric Medical Images [7.2993352400518035]
NVIDIA A100 GPU上の128*128*128の3Dボリューム画像に対して,SAM推論を8ミリ秒に高速化するFastSAM3Dを提案する。
FastSAM3Dは2D SAMと8.75倍の527.38倍で、同じボリュームの3D SAMは性能が著しく低下しない。
論文 参考訳(メタデータ) (2024-03-14T19:29:44Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM [78.51130794482077]
本稿では,Segment Anything Model (SAM) の高速化版である EdgeSAM について述べる。
我々のアプローチは、オリジナルのViTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留することであり、エッジデバイスに適している。
オリジナルのSAMに比べて40倍の速度向上を実現し、エッジデバイスにデプロイした場合の14倍の速度でMobileSAMを上回ります。
論文 参考訳(メタデータ) (2023-12-11T18:59:52Z) - RepViT-SAM: Towards Real-Time Segmenting Anything [71.94042743317937]
Segment Anything Model (SAM) は、様々なコンピュータビジョンタスクに対して印象的なゼロショット転送性能を示した。
MobileSAMは蒸留を用いてSAMの重い画像エンコーダをTinyViTに置き換えることを提案する。
RepViT-SAMはMobileSAMよりもはるかに優れたゼロショット転送機能を持ち、推論速度は10倍近い。
論文 参考訳(メタデータ) (2023-12-10T04:42:56Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - Faster Segment Anything: Towards Lightweight SAM for Mobile Applications [47.177751899636164]
この作業は、重い画像エンコーダを軽量なものに置き換えることで、Segment Anything Model(SAM)をモバイルフレンドリーにすることを目的としている。
我々は、重画像エンコーダから軽量画像エンコーダに知識を蒸留し、元のSAMのマスクデコーダと自動的に互換性を持たせる。
結果として生じる軽量SAMはMobileSAMと呼ばれ、これは60倍以上小さいが、オリジナルのSAMと同等に動作する。
論文 参考訳(メタデータ) (2023-06-25T16:37:25Z) - Towards Efficient and Scalable Sharpness-Aware Minimization [81.22779501753695]
内部勾配の上昇を周期的に計算する新しいアルゴリズム LookSAM を提案する。
LookSAMはSAMと同じような精度を実現し、非常に高速である。
Vision Transformer(ViTs)のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
論文 参考訳(メタデータ) (2022-03-05T11:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。