論文の概要: Faster Segment Anything: Towards Lightweight SAM for Mobile Applications
- arxiv url: http://arxiv.org/abs/2306.14289v1
- Date: Sun, 25 Jun 2023 16:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:44:22.634968
- Title: Faster Segment Anything: Towards Lightweight SAM for Mobile Applications
- Title(参考訳): より高速なセグメンテーション:モバイルアプリケーションのための軽量SAMを目指して
- Authors: Chaoning Zhang, Dongshen Han, Yu Qiao, Jung Uk Kim, Sung-Ho Bae,
Seungkyu Lee, Choong Seon Hong
- Abstract要約: Segment Any Model (SAM) は、関心の対象を背景から切り離すためのプロンプト誘導型視覚基盤モデルである。
本研究では,重厚画像エンコーダを軽量画像エンコーダに置き換えることで,SAMをモバイルフレンドリーにすることを目的とする。
元のSAMのイメージエンコーダViT-Hから、元のSAMのマスクデコーダと自動的に互換性のある軽量画像エンコーダに、知識を蒸留する。
- 参考スコア(独自算出の注目度): 47.177751899636164
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Segment anything model (SAM) is a prompt-guided vision foundation model for
cutting out the object of interest from its background. Since Meta research
team released the SA project, SAM has attracted significant attention due to
its impressive zero-shot transfer performance and high versatility of being
compatible with other models for advanced vision applications like image
editing with fine-grained control. Many of such use cases need to be run on
resource-constraint edge devices, like mobile Apps. In this work, we aim to
make SAM mobile-friendly by replacing the heavyweight image encoder with a
lightweight one. A naive way to train such a new SAM as in the original SAM
paper leads to unsatisfactory performance, especially when limited training
sources are available. We find that this is mainly caused by the coupled
optimization of the image encoder and mask decoder, motivated by which we
propose decoupled distillation. Concretely, we distill the knowledge from the
image encoder ViT-H in the original SAM to a lightweight image encoder, which
can be automatically compatible with the mask decoder in the original SAM. The
training can be completed on a single GPU within less than one day, and the
resulting lightweight SAM is termed MobileSAM which is more than 60 times
smaller yet performs on par with the original SAM. For inference speed,
MobileSAM runs around 10ms per image: 8ms on the image encoder and 2ms on the
mask decoder. With superior performance and a higher versatility, our MobileSAM
is 7 times smaller and 4 times faster than the concurrent FastSAM, making it
more suitable for mobile applications. The code for MobileSAM project is
provided at https://github.com/ChaoningZhang/MobileSAM
- Abstract(参考訳): Segment Any Model (SAM) は、関心の対象を背景から切り離すためのプロンプト誘導型視覚基盤モデルである。
Meta研究チームがSAプロジェクトをリリースして以来、SAMは印象的なゼロショット転送性能と、画像編集やきめ細かい制御といった高度なビジョンアプリケーションのために他のモデルと互換性があるという高い汎用性のために、大きな注目を集めている。
このようなユースケースの多くは、モバイルアプリのようなリソース制約のあるエッジデバイス上で実行する必要がある。
本研究では,重厚画像エンコーダを軽量画像エンコーダに置き換えることで,SAMをモバイルフレンドリーにすることを目的とする。
オリジナルのSAM論文のように、このような新しいSAMをトレーニングする簡単な方法は、特に限られたトレーニングソースが利用できる場合、不満足なパフォーマンスをもたらす。
画像エンコーダとマスクデコーダの結合最適化が主な原因で,脱カップリング蒸留法を提案する。
具体的には、元のSAMのイメージエンコーダViT-Hから、元のSAMのマスクデコーダと自動的に互換性のある軽量画像エンコーダに、知識を蒸留する。
トレーニングは1日以内で1つのGPU上で完了することができ、その結果得られる軽量SAMはMobileSAMと呼ばれる。
推論速度では、MobileSAMは画像あたり約10msで動作し、画像エンコーダでは8ms、マスクデコーダでは2msである。
優れたパフォーマンスと高い汎用性により、MobileSAMは同時実行時のFastSAMの7倍の速さで、モバイルアプリケーションにもより適しています。
MobileSAMプロジェクトのコードはhttps://github.com/ChaoningZhang/MobileSAMにある。
関連論文リスト
- MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration [6.515075311704396]
Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。
我々はSAMの亜種であるSAM-Lighteningを紹介し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴としている。
COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法よりも大幅に優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-03-14T09:07:34Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM [71.868623296582]
EdgeSAMはSegment Anything Model (SAM)の高速化版である。
我々のアプローチは、VTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留することである。
これは、iPhone 14で30FPS以上で動作可能なSAMの最初の派生機種である。
論文 参考訳(メタデータ) (2023-12-11T18:59:52Z) - RepViT-SAM: Towards Real-Time Segmenting Anything [71.94042743317937]
Segment Anything Model (SAM) は、様々なコンピュータビジョンタスクに対して印象的なゼロショット転送性能を示した。
MobileSAMは蒸留を用いてSAMの重い画像エンコーダをTinyViTに置き換えることを提案する。
RepViT-SAMはMobileSAMよりもはるかに優れたゼロショット転送機能を持ち、推論速度は10倍近い。
論文 参考訳(メタデータ) (2023-12-10T04:42:56Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - AutoSAM: Adapting SAM to Medical Images by Overloading the Prompt
Encoder [101.28268762305916]
この作業では、Segment Anything Modelを同じ入力イメージで動作するエンコーダに置き換える。
複数の医用画像とビデオのベンチマークで最先端の結果を得る。
内部の知識を検査し、軽量なセグメンテーションソリューションを提供するために、浅いデコンボリューションネットワークによってマスクに復号化することを学ぶ。
論文 参考訳(メタデータ) (2023-06-10T07:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。