論文の概要: TinySAM: Pushing the Envelope for Efficient Segment Anything Model
- arxiv url: http://arxiv.org/abs/2312.13789v2
- Date: Sat, 9 Mar 2024 08:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:49:56.475851
- Title: TinySAM: Pushing the Envelope for Efficient Segment Anything Model
- Title(参考訳): TinySAM: 効率的なセグメンテーションモデルのためのエンベロープを押す
- Authors: Han Shu, Wenshuo Li, Yehui Tang, Yiman Zhang, Yihao Chen, Houqiang Li,
Yunhe Wang, Xinghao Chen
- Abstract要約: 我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
- 参考スコア(独自算出の注目度): 76.21007576954035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently segment anything model (SAM) has shown powerful segmentation
capability and has drawn great attention in computer vision fields. Massive
following works have developed various applications based on the pretrained SAM
and achieved impressive performance on downstream vision tasks.
However, SAM consists of heavy architectures and requires massive
computational capacity, which hinders the further application of SAM on
computation constrained edge devices. To this end, in this paper we propose a
framework to obtain a tiny segment anything model (TinySAM) while maintaining
the strong zero-shot performance. We first propose a full-stage knowledge
distillation method with hard prompt sampling and hard mask weighting strategy
to distill a lightweight student model. We also adapt the post-training
quantization to the promptable segmentation task and further reduce the
computational cost. Moreover, a hierarchical segmenting everything strategy is
proposed to accelerate the everything inference by $2\times$ with almost no
performance degradation. With all these proposed methods, our TinySAM leads to
orders of magnitude computational reduction and pushes the envelope for
efficient segment anything task. Extensive experiments on various zero-shot
transfer tasks demonstrate the significantly advantageous performance of our
TinySAM against counterpart methods. Pre-trained models and codes are available
at https://github.com/xinghaochen/TinySAM and
https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.
- Abstract(参考訳): 近年,セグメンテーションモデル (SAM) は強力なセグメンテーション能力を示し,コンピュータビジョン分野で大きな注目を集めている。
大量の後続の作業は、事前訓練されたsamに基づいて様々なアプリケーションを開発し、下流ビジョンタスクで印象的なパフォーマンスを達成した。
しかし、SAMは重いアーキテクチャで構成され、大量の計算能力を必要とするため、計算制約エッジデバイスへのSAMのさらなる適用を妨げる。
そこで本稿では,強力なゼロショット性能を維持しつつ,小セグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いたフルステージ知識蒸留法を提案する。
また、学習後の量子化を高速セグメント化タスクに適応させ、計算コストをさらに削減する。
さらに、すべての戦略を階層的にセグメンテーションすることで、パフォーマンスの低下がほとんどなく、すべての推論を$2\times$で加速する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
様々なゼロショット転送タスクに関する広範囲な実験は、tinysamが対応するメソッドに対して著しく有利な性能を示している。
事前トレーニングされたモデルとコードは、https://github.com/xinghaochen/TinySAMとhttps://gitee.com/mindspore/models/tree/master/research/cv/TinySAMで入手できる。
関連論文リスト
- WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小化しながら、事前学習した知識を完全に活用するために、SAMは凍結し、最小限の追加パラメータと計算を導入します。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - RepViT-SAM: Towards Real-Time Segmenting Anything [71.94042743317937]
Segment Anything Model (SAM) は、様々なコンピュータビジョンタスクに対して印象的なゼロショット転送性能を示した。
MobileSAMは蒸留を用いてSAMの重い画像エンコーダをTinyViTに置き換えることを提案する。
RepViT-SAMはMobileSAMよりもはるかに優れたゼロショット転送機能を持ち、推論速度は10倍近い。
論文 参考訳(メタデータ) (2023-12-10T04:42:56Z) - 0.1% Data Makes Segment Anything Slim [57.857534644932194]
SlimSAMは、非常に低いトレーニングコストで優れたパフォーマンスを実現する新しいSAM圧縮手法である。
我々は、圧縮プロセスをプログレッシブな手順に分割する革新的な代替スリム化戦略を採用している。
SlimSAMは、既存の方法の10倍以上のトレーニングコストを必要とする一方で、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-12-08T12:48:53Z) - EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything [36.553867358541154]
Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
論文 参考訳(メタデータ) (2023-12-01T18:31:00Z) - SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial
Understanding [41.92581579108544]
一般公開されたビジョンファウンデーションモデル(VFM)の展望は急速に拡大している。
我々は,VFMを効率よく統合したモデルにマージする簡単なレシピを導入し,その専門知識を吸収する。
本手法をSAMおよびCLIPに適用することにより,SAMとCLIPの機能を組み合わせた一元モデルであるSAM-CLIPを単一視覚変換器に適用する。
論文 参考訳(メタデータ) (2023-10-23T19:21:57Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - Fast Segment Anything [46.130784421779865]
最近提案されたセグメンテーション・アズ・モデル(SAM)は多くのコンピュータビジョンタスクに大きな影響を与えている。
巨大な計算コストは、業界シナリオにおける幅広い応用を妨げる。
本稿では,この基本課題に対して,性能に匹敵する高速化手法を提案する。
論文 参考訳(メタデータ) (2023-06-21T10:08:29Z) - Make Sharpness-Aware Minimization Stronger: A Sparsified Perturbation
Approach [132.37966970098645]
人気のソリューションの1つがSAM(Sharpness-Aware Minimization)であり、摂動を加える際の体重減少の変化を最小限に抑える。
本稿では,Sparse SAM (SSAM) とよばれる効率的な学習手法を提案する。
さらに、S が同じSAM、すなわち $O(log T/sqrtTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT で収束できることを理論的に証明する。
論文 参考訳(メタデータ) (2022-10-11T06:30:10Z) - Towards Efficient and Scalable Sharpness-Aware Minimization [81.22779501753695]
内部勾配の上昇を周期的に計算する新しいアルゴリズム LookSAM を提案する。
LookSAMはSAMと同じような精度を実現し、非常に高速である。
Vision Transformer(ViTs)のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
論文 参考訳(メタデータ) (2022-03-05T11:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。