論文の概要: EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM
- arxiv url: http://arxiv.org/abs/2312.06660v2
- Date: Fri, 19 Jul 2024 17:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 00:16:29.795276
- Title: EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM
- Title(参考訳): EdgeSAM:SAMのオンデバイス展開のためのロープ蒸留
- Authors: Chong Zhou, Xiangtai Li, Chen Change Loy, Bo Dai,
- Abstract要約: EdgeSAMはSegment Anything Model (SAM)の高速化版である。
我々のアプローチは、VTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留することである。
これは、iPhone 14で30FPS以上で動作可能なSAMの最初の派生機種である。
- 参考スコア(独自算出の注目度): 71.868623296582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents EdgeSAM, an accelerated variant of the Segment Anything Model (SAM), optimized for efficient execution on edge devices with minimal compromise in performance. Our approach involves distilling the original ViT-based SAM image encoder into a purely CNN-based architecture, better suited for edge devices. We carefully benchmark various distillation strategies and demonstrate that taskagnostic encoder distillation fails to capture the full knowledge embodied in SAM. To overcome this bottleneck, we include both the prompt encoder and mask decoder in the distillation process, with box and point prompts in the loop, so that the distilled model can accurately capture the intricate dynamics between user input and mask generation. To mitigate dataset bias issues stemming from point prompt distillation, we incorporate a lightweight module within the encoder. As a result, EdgeSAM achieves a 37-fold speed increase compared to the original SAM, and it also outperforms MobileSAM/EfficientSAM, being over 7 times as fast when deployed on edge devices while enhancing the mIoUs on COCO and LVIS by 2.3/1.5 and 3.1/1.6, respectively. It is also the first SAM variant that can run at over 30 FPS on an iPhone 14. Code and demo are available at https://www.mmlab-ntu.com/project/edgesam.
- Abstract(参考訳): 本稿では,パフォーマンスを最小限に抑えたエッジデバイス上での効率的な実行を最適化した,Segment Anything Model (SAM) の高速化版であるEdgeSAMを提案する。
我々のアプローチは、オリジナルのViTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留することであり、エッジデバイスに適している。
我々は,様々な蒸留戦略を慎重にベンチマークし,SAMで具現化された全知識の抽出にタスク非依存のエンコーダ蒸留が失敗することを示した。
このボトルネックを克服するため、蒸留工程ではプロンプトエンコーダとマスクデコーダの両方を、ループ内にボックスとポイントプロンプトを配置し、蒸留モデルがユーザ入力とマスク生成の間の複雑なダイナミクスを正確に捉えることができるようにした。
ポイントプロンプト蒸留から生じるデータセットバイアスの問題を緩和するため,エンコーダ内に軽量モジュールを組み込む。
その結果、EdgeSAMはオリジナルのSAMに比べて37倍の速度向上を実現し、それぞれ2.3/1.5と3.1/1.6のCOCOおよびLVIS上のmIoUを増強しながら、エッジデバイスにデプロイする際の7倍以上の速度でMobileSAM/EfficientSAMを上回ります。
また、iPhone 14で30FPS以上で動作可能なSAMの最初の派生機種でもある。
コードとデモはhttps://www.mmlab-ntu.com/project/edgesam.comで公開されている。
関連論文リスト
- Lite-SAM Is Actually What You Need for Segment Everything [4.696541976769272]
Lite-SAMはSegEveryタスクの効率的なエンドツーエンドソリューションである。
Lite-SAMは4つの主要コンポーネントで構成されている: 合理化されたCNN-Transformerハイブリッドエンコーダ(LiteViT)、自動プロンプトプロポーザルネットワーク(AutoPPN)。
論文 参考訳(メタデータ) (2024-07-12T03:28:46Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration [6.515075311704396]
Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。
我々はSAMの亜種であるSAM-Lighteningを紹介し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴としている。
COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法よりも大幅に優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-03-14T09:07:34Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - Faster Segment Anything: Towards Lightweight SAM for Mobile Applications [47.177751899636164]
この作業は、重い画像エンコーダを軽量なものに置き換えることで、Segment Anything Model(SAM)をモバイルフレンドリーにすることを目的としている。
我々は、重画像エンコーダから軽量画像エンコーダに知識を蒸留し、元のSAMのマスクデコーダと自動的に互換性を持たせる。
結果として生じる軽量SAMはMobileSAMと呼ばれ、これは60倍以上小さいが、オリジナルのSAMと同等に動作する。
論文 参考訳(メタデータ) (2023-06-25T16:37:25Z) - How to Efficiently Adapt Large Segmentation Model(SAM) to Medical Images [15.181219203629643]
Segment Anything (SAM)は、自然画像のゼロショットセグメンテーションにおいて印象的な機能を示す。
しかし、医療画像に適用すると、SAMは顕著なパフォーマンス低下に悩まされる。
本研究では,SAMエンコーダを凍結し,軽量なタスク固有予測ヘッドを微調整することを提案する。
論文 参考訳(メタデータ) (2023-06-23T18:34:30Z) - AutoSAM: Adapting SAM to Medical Images by Overloading the Prompt
Encoder [101.28268762305916]
この作業では、Segment Anything Modelを同じ入力イメージで動作するエンコーダに置き換える。
複数の医用画像とビデオのベンチマークで最先端の結果を得る。
内部の知識を検査し、軽量なセグメンテーションソリューションを提供するために、浅いデコンボリューションネットワークによってマスクに復号化することを学ぶ。
論文 参考訳(メタデータ) (2023-06-10T07:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。