論文の概要: EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM
- arxiv url: http://arxiv.org/abs/2312.06660v1
- Date: Mon, 11 Dec 2023 18:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 14:10:16.597796
- Title: EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM
- Title(参考訳): EdgeSAM:SAMのオンデバイス展開のためのロープ蒸留
- Authors: Chong Zhou, Xiangtai Li, Chen Change Loy, Bo Dai
- Abstract要約: 本稿では,Segment Anything Model (SAM) の高速化版である EdgeSAM について述べる。
我々のアプローチは、オリジナルのViTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留することであり、エッジデバイスに適している。
オリジナルのSAMに比べて40倍の速度向上を実現し、エッジデバイスにデプロイした場合の14倍の速度でMobileSAMを上回ります。
- 参考スコア(独自算出の注目度): 78.51130794482077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents EdgeSAM, an accelerated variant of the Segment Anything
Model (SAM), optimized for efficient execution on edge devices with minimal
compromise in performance. Our approach involves distilling the original
ViT-based SAM image encoder into a purely CNN-based architecture, better suited
for edge devices. We carefully benchmark various distillation strategies and
demonstrate that task-agnostic encoder distillation fails to capture the full
knowledge embodied in SAM. To overcome this bottleneck, we include both the
prompt encoder and mask decoder in the distillation process, with box and point
prompts in the loop, so that the distilled model can accurately capture the
intricate dynamics between user input and mask generation. To mitigate dataset
bias issues stemming from point prompt distillation, we incorporate a
lightweight module within the encoder. EdgeSAM achieves a 40-fold speed
increase compared to the original SAM, and it also outperforms MobileSAM, being
14 times as fast when deployed on edge devices while enhancing the mIoUs on
COCO and LVIS by 2.3 and 3.2 respectively. It is also the first SAM variant
that can run at over 30 FPS on an iPhone 14. Code and models are available at
https://github.com/chongzhou96/EdgeSAM.
- Abstract(参考訳): 本稿では,パフォーマンスを最小限に抑えたエッジデバイス上での効率的な実行を最適化した,Segment Anything Model (SAM) の高速化版であるEdgeSAMを提案する。
我々のアプローチでは、オリジナルのViTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留し、エッジデバイスに適している。
我々は,様々な蒸留戦略を慎重にベンチマークし,SAMで具現化された全知識の抽出にタスク非依存のエンコーダ蒸留は失敗することを示した。
このボトルネックを克服するため、蒸留工程ではプロンプトエンコーダとマスクデコーダの両方を、ループ内にボックスとポイントプロンプトを配置し、蒸留モデルによりユーザ入力とマスク生成の間の複雑なダイナミクスを正確に捉えることができる。
ポイントプロンプト蒸留から生じるデータセットバイアスの問題を緩和するため,エンコーダ内に軽量モジュールを組み込む。
EdgeSAMはオリジナルのSAMに比べて40倍の速度向上を実現しており、それぞれCOCOとLVISのmIoUを2.3倍、LVISの3.2倍の速さでMobileSAMを上回っている。
また、iPhone 14で30FPS以上で動作可能なSAMの最初の派生機種でもある。
コードとモデルはhttps://github.com/chongzhou96/EdgeSAMで公開されている。
関連論文リスト
- Lite-SAM Is Actually What You Need for Segment Everything [4.696541976769272]
Lite-SAMはSegEveryタスクの効率的なエンドツーエンドソリューションである。
Lite-SAMは4つの主要コンポーネントで構成されている: 合理化されたCNN-Transformerハイブリッドエンコーダ(LiteViT)、自動プロンプトプロポーザルネットワーク(AutoPPN)。
論文 参考訳(メタデータ) (2024-07-12T03:28:46Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - SAM-Lightening: A Lightweight Segment Anything Model with Dilated Flash Attention to Achieve 30 times Acceleration [6.515075311704396]
Segment Anything Model (SAM)は、ゼロショットの一般化能力のためにセグメンテーションタスクに大きな注目を集めている。
我々はSAMの亜種であるSAM-Lighteningを紹介し、Dilated Flash Attentionと呼ばれる再設計されたアテンション機構を特徴としている。
COCOとLVISの実験により、SAM-Lighteningは実行時の効率とセグメンテーション精度の両方において最先端の手法よりも大幅に優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-03-14T09:07:34Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - Faster Segment Anything: Towards Lightweight SAM for Mobile Applications [47.177751899636164]
この作業は、重い画像エンコーダを軽量なものに置き換えることで、Segment Anything Model(SAM)をモバイルフレンドリーにすることを目的としている。
我々は、重画像エンコーダから軽量画像エンコーダに知識を蒸留し、元のSAMのマスクデコーダと自動的に互換性を持たせる。
結果として生じる軽量SAMはMobileSAMと呼ばれ、これは60倍以上小さいが、オリジナルのSAMと同等に動作する。
論文 参考訳(メタデータ) (2023-06-25T16:37:25Z) - How to Efficiently Adapt Large Segmentation Model(SAM) to Medical Images [15.181219203629643]
Segment Anything (SAM)は、自然画像のゼロショットセグメンテーションにおいて印象的な機能を示す。
しかし、医療画像に適用すると、SAMは顕著なパフォーマンス低下に悩まされる。
本研究では,SAMエンコーダを凍結し,軽量なタスク固有予測ヘッドを微調整することを提案する。
論文 参考訳(メタデータ) (2023-06-23T18:34:30Z) - AutoSAM: Adapting SAM to Medical Images by Overloading the Prompt
Encoder [101.28268762305916]
この作業では、Segment Anything Modelを同じ入力イメージで動作するエンコーダに置き換える。
複数の医用画像とビデオのベンチマークで最先端の結果を得る。
内部の知識を検査し、軽量なセグメンテーションソリューションを提供するために、浅いデコンボリューションネットワークによってマスクに復号化することを学ぶ。
論文 参考訳(メタデータ) (2023-06-10T07:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。