論文の概要: RepViT-SAM: Towards Real-Time Segmenting Anything
- arxiv url: http://arxiv.org/abs/2312.05760v1
- Date: Sun, 10 Dec 2023 04:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 18:48:50.887639
- Title: RepViT-SAM: Towards Real-Time Segmenting Anything
- Title(参考訳): RepViT-SAM: リアルタイムセグメンテーションを目指す
- Authors: Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding
- Abstract要約: Segment Anything Model (SAM) は、様々なコンピュータビジョンタスクに対して印象的なゼロショット転送性能を示した。
MobileSAMは蒸留を用いてSAMの重い画像エンコーダをTinyViTに置き換えることを提案する。
RepViT-SAMはMobileSAMよりもはるかに優れたゼロショット転送機能を持ち、推論速度は10倍近い。
- 参考スコア(独自算出の注目度): 71.94042743317937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Segment Anything Model (SAM) has shown impressive zero-shot transfer
performance for various computer vision tasks recently. However, its heavy
computation costs remain daunting for practical applications. MobileSAM
proposes to replace the heavyweight image encoder in SAM with TinyViT by
employing distillation, which results in a significant reduction in
computational requirements. However, its deployment on resource-constrained
mobile devices still encounters challenges due to the substantial memory and
computational overhead caused by self-attention mechanisms. Recently, RepViT
achieves the state-of-the-art performance and latency trade-off on mobile
devices by incorporating efficient architectural designs of ViTs into CNNs.
Here, to achieve real-time segmenting anything on mobile devices, following
MobileSAM, we replace the heavyweight image encoder in SAM with RepViT model,
ending up with the RepViT-SAM model. Extensive experiments show that RepViT-SAM
can enjoy significantly better zero-shot transfer capability than MobileSAM,
along with nearly $10\times$ faster inference speed. The code and models are
available at \url{https://github.com/THU-MIG/RepViT}.
- Abstract(参考訳): segment anything model (sam) は様々なコンピュータビジョンタスクにおいて印象的なゼロショット転送性能を示している。
しかし、その計算コストは実用的用途にはまだ支障をきたしている。
MobileSAM は蒸留を用いて SAM の重い画像エンコーダを TinyViT に置き換えることを提案する。
しかしながら、リソース制限されたモバイルデバイスへのデプロイメントは、自己保持機構によるメモリと計算オーバーヘッドの大幅な増加により、依然として課題に直面している。
近年、RepViTはモバイルデバイス上での最先端のパフォーマンスとレイテンシのトレードオフを実現し、ViTの効率的なアーキテクチャ設計をCNNに組み込むことで実現している。
そこで,モバイルSAMを追従して,モバイルデバイス上でのリアルタイムセグメンテーションを実現するため,SAMのヘビー級画像エンコーダをRepViTモデルに置き換え,最終的にRepViT-SAMモデルに置き換える。
大規模な実験によると、RepViT-SAMはMobileSAMよりもはるかに優れたゼロショット転送能力を持ち、推論速度は10ドル近い。
コードとモデルは \url{https://github.com/thu-mig/repvit} で利用可能である。
関連論文リスト
- From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - TS-SAM: Fine-Tuning Segment-Anything Model for Downstream Tasks [10.75125721857487]
微調整されたSAMとドメイン固有のモデルの間には、依然として大きなパフォーマンスギャップがあります。
本稿では,SAM の強力な特徴をサイドネットワークトレーニングに統合し,包括的特徴融合を実現する Two-Stream SAM (TS-SAM) を提案する。
3つのタスクから得られた10の公開データセットに対する大規模な実験により、TS-SAMは、最近提案されたSAM-AdapterとSSOMよりも大幅に優れているだけでなく、SOTAドメイン固有のモデルとの競合性能も達成している。
論文 参考訳(メタデータ) (2024-08-03T18:08:51Z) - EfficientViT-SAM: Accelerated Segment Anything Model Without Accuracy Loss [23.428671076019207]
高速化されたセグメントモデルの新しいファミリーであるEfficientViT-SAMを提案する。
トレーニングはSAM-ViT-H画像エンコーダからEfficientViTへの知識蒸留から始まる。
EfficientViTの効率とキャパシティにより、EfficientViT-SAMはSAM-ViT-H上でA100 GPU上で48.9倍のRTスピードアップを提供する。
論文 参考訳(メタデータ) (2024-02-07T16:28:36Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM [71.868623296582]
EdgeSAMはSegment Anything Model (SAM)の高速化版である。
我々のアプローチは、VTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留することである。
これは、iPhone 14で30FPS以上で動作可能なSAMの最初の派生機種である。
論文 参考訳(メタデータ) (2023-12-11T18:59:52Z) - RepViT: Revisiting Mobile CNN From ViT Perspective [67.05569159984691]
軽量ビジョントランス (ViT) は、軽量畳み込みニューラルネットワーク (CNN) と比較して、優れた性能と低レイテンシを示す
本研究では、ViTの観点から軽量CNNの効率的な設計を再考し、モバイルデバイスへの将来性を強調した。
論文 参考訳(メタデータ) (2023-07-18T14:24:33Z) - Faster Segment Anything: Towards Lightweight SAM for Mobile Applications [47.177751899636164]
この作業は、重い画像エンコーダを軽量なものに置き換えることで、Segment Anything Model(SAM)をモバイルフレンドリーにすることを目的としている。
我々は、重画像エンコーダから軽量画像エンコーダに知識を蒸留し、元のSAMのマスクデコーダと自動的に互換性を持たせる。
結果として生じる軽量SAMはMobileSAMと呼ばれ、これは60倍以上小さいが、オリジナルのSAMと同等に動作する。
論文 参考訳(メタデータ) (2023-06-25T16:37:25Z) - Towards Efficient and Scalable Sharpness-Aware Minimization [81.22779501753695]
内部勾配の上昇を周期的に計算する新しいアルゴリズム LookSAM を提案する。
LookSAMはSAMと同じような精度を実現し、非常に高速である。
Vision Transformer(ViTs)のトレーニングでバッチサイズのスケールアップに成功したのは,私たちが初めてです。
論文 参考訳(メタデータ) (2022-03-05T11:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。