論文の概要: SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration
- arxiv url: http://arxiv.org/abs/2403.09195v2
- Date: Mon, 18 Mar 2024 02:30:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 23:14:54.828233
- Title: SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration
- Title(参考訳): SAM-Lightening:30倍の加速を実現するために、フラッシュを拡張した軽量セグメンテーションモデル
- Authors: Yanfei Song, Bangzheng Pu, Peng Wang, Hongxu Jiang, Dong Dong, Yongxiang Cao, Yiqing Shen,
- Abstract要約: Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。
我々はSAMの亜種であるSAM-Lighteningを紹介し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴としている。
COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法よりも大幅に優れていることが明らかになった。
- 参考スコア(独自算出の注目度): 6.515075311704396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Model (SAM) has garnered significant attention in segmentation tasks due to their zero-shot generalization ability. However, a broader application of SAMs to real-world practice has been restricted by their low inference speed and high computational memory demands, which mainly stem from the attention mechanism. Existing work concentrated on optimizing the encoder, yet has not adequately addressed the inefficiency of the attention mechanism itself, even when distilled to a smaller model, which thus leaves space for further improvement. In response, we introduce SAM-Lightening, a variant of SAM, that features a re-engineered attention mechanism, termed Dilated Flash Attention. It not only facilitates higher parallelism, enhancing processing efficiency but also retains compatibility with the existing FlashAttention. Correspondingly, we propose a progressive distillation to enable an efficient knowledge transfer from the vanilla SAM without costly training from scratch. Experiments on COCO and LVIS reveal that SAM-Lightening significantly outperforms the state-of-the-art methods in both run-time efficiency and segmentation accuracy. Specifically, it can achieve an inference speed of 7 milliseconds (ms) per image, for images of size 1024*1024 pixels, which is 30.1 times faster than the vanilla SAM and 2.1 times than the state-of-the-art. Moreover, it takes only 244MB memory, which is 3.5\% of the vanilla SAM. The code and weights are available at https://anonymous.4open.science/r/SAM-LIGHTENING-BC25/.
- Abstract(参考訳): Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。
しかし、SAMの現実の実践への広範な応用は、その低推論速度と、主に注意機構に由来する高い計算メモリ要求によって制限されている。
既存の作業はエンコーダの最適化に集中しているが、小さいモデルに蒸留してもアテンション機構自体の非効率性には十分対応していない。
これに対し、SAMの亜種であるSAM-Lighteningを導入し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴とする。
並列性が向上し、処理効率が向上するだけでなく、既存のFlashAttentionとの互換性も維持される。
そこで本研究では,バニラSAMからの効率的な知識伝達を,スクラッチからコストのかかる訓練を伴わずに行うための,プログレッシブ蒸留法を提案する。
COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法を著しく上回っていることが明らかとなった。
具体的には、バニラSAMの30.1倍、最先端の2.1倍の1024*1024ピクセルのイメージに対して、画像当たり7ミリ秒(ms)の推論速度を達成することができる。
さらに、バニラSAMの3.5倍の244MBのメモリしか必要としない。
コードとウェイトはhttps://anonymous.4open.science/r/SAM-LIGHTENING-BC25/で公開されている。
関連論文リスト
- Lite-SAM Is Actually What You Need for Segment Everything [4.696541976769272]
Lite-SAMはSegEveryタスクの効率的なエンドツーエンドソリューションである。
Lite-SAMは4つの主要コンポーネントで構成されている: 合理化されたCNN-Transformerハイブリッドエンコーダ(LiteViT)、自動プロンプトプロポーザルネットワーク(AutoPPN)。
論文 参考訳(メタデータ) (2024-07-12T03:28:46Z) - HRSAM: Efficiently Segment Anything in High-Resolution Images [59.537068118473066]
本稿では,Flash Attentionを統合し,Plain,Shifted,新たに提案されたCycle-Scan Windowを取り入れたHRSAMを提案する。
サイクルスキャンウィンドウアテンションは、計算オーバーヘッドを最小限に抑えるため、最近開発されたステートスペースモデル(SSM)を採用している。
高精度セグメンテーションデータセットHQSeg44KとDAVISの実験は、SAM蒸留HRSAMモデルが教師モデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-07-02T09:51:56Z) - FastSAM3D: An Efficient Segment Anything Model for 3D Volumetric Medical Images [7.2993352400518035]
NVIDIA A100 GPU上の128*128*128の3Dボリューム画像に対して,SAM推論を8ミリ秒に高速化するFastSAM3Dを提案する。
FastSAM3Dは2D SAMと8.75倍の527.38倍で、同じボリュームの3D SAMは性能が著しく低下しない。
論文 参考訳(メタデータ) (2024-03-14T19:29:44Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM [71.868623296582]
EdgeSAMはSegment Anything Model (SAM)の高速化版である。
我々のアプローチは、VTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留することである。
これは、iPhone 14で30FPS以上で動作可能なSAMの最初の派生機種である。
論文 参考訳(メタデータ) (2023-12-11T18:59:52Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - Faster Segment Anything: Towards Lightweight SAM for Mobile Applications [47.177751899636164]
この作業は、重い画像エンコーダを軽量なものに置き換えることで、Segment Anything Model(SAM)をモバイルフレンドリーにすることを目的としている。
我々は、重画像エンコーダから軽量画像エンコーダに知識を蒸留し、元のSAMのマスクデコーダと自動的に互換性を持たせる。
結果として生じる軽量SAMはMobileSAMと呼ばれ、これは60倍以上小さいが、オリジナルのSAMと同等に動作する。
論文 参考訳(メタデータ) (2023-06-25T16:37:25Z) - Towards Efficient and Scalable Sharpness-Aware Minimization [81.22779501753695]
内部勾配の上昇を周期的に計算する新しいアルゴリズム LookSAM を提案する。
LookSAMはSAMと同じような精度を実現し、非常に高速である。
Vision Transformer(ViTs)のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
論文 参考訳(メタデータ) (2022-03-05T11:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。