論文の概要: MobileSAMv2: Faster Segment Anything to Everything
- arxiv url: http://arxiv.org/abs/2312.09579v1
- Date: Fri, 15 Dec 2023 07:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:50:11.580038
- Title: MobileSAMv2: Faster Segment Anything to Everything
- Title(参考訳): MobileSAMv2: セグメンテーションの高速化
- Authors: Chaoning Zhang, Dongshen Han, Sheng Zheng, Jinwoo Choi, Tae-Ho Kim,
Choong Seon Hong
- Abstract要約: Segment Any Model (SAM) は2つの実用的かつ困難なセグメンテーションタスクに対処する。
SegAnyは画像上のすべてのオブジェクトのマスクを予測し、SegEveryは画像上のすべてのオブジェクトのマスクを予測する。
有効なプロンプトのみを用いて最終マスクを直接生成することで、SegEveryの効率を改善することを提案する。
- 参考スコア(独自算出の注目度): 32.36889746918654
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Segment anything model (SAM) addresses two practical yet challenging
segmentation tasks: \textbf{segment anything (SegAny)}, which utilizes a
certain point to predict the mask for a single object of interest, and
\textbf{segment everything (SegEvery)}, which predicts the masks for all
objects on the image. What makes SegAny slow for SAM is its heavyweight image
encoder, which has been addressed by MobileSAM via decoupled knowledge
distillation. The efficiency bottleneck of SegEvery with SAM, however, lies in
its mask decoder because it needs to first generate numerous masks with
redundant grid-search prompts and then perform filtering to obtain the final
valid masks. We propose to improve its efficiency by directly generating the
final masks with only valid prompts, which can be obtained through object
discovery. Our proposed approach not only helps reduce the total time on the
mask decoder by at least 16 times but also achieves superior performance.
Specifically, our approach yields an average performance boost of 3.6\% (42.5\%
\textit{v.s.} 38.9\%) for zero-shot object proposal on the LVIS dataset with
the mask AR@$K$ metric. Qualitative results show that our approach generates
fine-grained masks while avoiding over-segmenting things. This project
targeting faster SegEvery than the original SAM is termed MobileSAMv2 to
differentiate from MobileSAM which targets faster SegAny. Moreover, we
demonstrate that our new prompt sampling is also compatible with the distilled
image encoders in MobileSAM, contributing to a unified framework for efficient
SegAny and SegEvery. The code is available at the same link as MobileSAM
Project
\href{https://github.com/ChaoningZhang/MobileSAM}{\textcolor{red}{https://github.com/ChaoningZhang/MobileSAM}}.
\end{abstract}
- Abstract(参考訳): Segment Any Model (SAM) は2つの実用的で困難なセグメンテーションタスクに対処する: \textbf{segment anything (SegAny)} は特定の点を利用して1つの関心対象に対してマスクを予測し、 \textbf{segment everything (SegEvery) は画像上のすべての対象に対してマスクを予測する。
SAMがSegAnyを遅くしているのは、その重い画像エンコーダである。
しかし、SegEveryとSAMの効率ボトルネックは、まず余分なグリッド探索プロンプトを持つ多数のマスクを生成し、最後に有効なマスクを得るためにフィルタリングを実行する必要があるため、マスクデコーダにある。
有効なプロンプトのみを用いて,最終的なマスクを直接生成することにより,その効率を向上させることを提案する。
提案手法は,マスクデコーダの合計時間を少なくとも16倍に短縮するだけでなく,優れた性能を実現する。
具体的には、マスクAR@$K$メトリックによるLVISデータセット上のゼロショットオブジェクトの提案に対して、平均的なパフォーマンスが3.6\% (42.5\% \textit{v.s.} 38.9\%) になる。
定性的な結果は, 過剰なセグメンテーションを回避しつつ, きめ細かいマスクを生成することを示す。
オリジナルのSAMよりも高速なSegEveryをターゲットにしたこのプロジェクトはMobileSAMv2と呼ばれ、より高速なSegAnyをターゲットにしたMobileSAMと区別されている。
さらに,新たなプロンプトサンプリングがMobileSAMの蒸留画像エンコーダと互換性があることを実証し,SegAnyとSegEveryの効率的な統合フレームワークに寄与した。
コードはMobileSAM Project \href{https://github.com/ChaoningZhang/MobileSAM}{\textcolor{red}{https://github.com/ChaoningZhang/MobileSAM}}と同じリンクで利用できる。
\end{abstract}
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation [19.65118388712439]
本稿では,新しいプロンプト駆動型アダプタであるPrompt Adapter Segment Anything Model(PA-SAM)を紹介する。
PA-SAMはプロンプトアダプタを専用にトレーニングすることで、画像から詳細な情報を抽出し、スパースレベルとディーププロンプトレベルの両方でマスクデコーダ機能を最適化する。
実験の結果,PA-SAMは他のSAM法よりも高品質,ゼロショット,オープンセットのセグメンテーションで優れていた。
論文 参考訳(メタデータ) (2024-01-23T19:20:22Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - EdgeSAM: Prompt-In-the-Loop Distillation for On-Device Deployment of SAM [71.868623296582]
EdgeSAMはSegment Anything Model (SAM)の高速化版である。
我々のアプローチは、VTベースのSAMイメージエンコーダを純粋にCNNベースのアーキテクチャに蒸留することである。
これは、iPhone 14で30FPS以上で動作可能なSAMの最初の派生機種である。
論文 参考訳(メタデータ) (2023-12-11T18:59:52Z) - SAM-Deblur: Let Segment Anything Boost Image Deblurring [21.964258084389243]
本稿では,Segment Anything Model (SAM) からの事前知識をデブロア処理に組み込んだ SAM-Deblur フレームワークを提案する。
RealBlurJ、ReloBlur、REDSデータセットの実験結果から、GoProでトレーニングしたNAFNetのPSNRをそれぞれ0.05、0.96、および7.03に改善したことが明らかとなった。
論文 参考訳(メタデータ) (2023-09-05T14:33:56Z) - Segment Anything in High Quality [116.39405160133315]
そこで本研究では,SAM のプロンプト可能な設計,効率,ゼロショットの一般化性を維持しつつ,任意のオブジェクトを正確にセグメント化できる HQ-SAM を提案する。
注意深い設計はSAMの事前訓練されたモデルの重みを再利用し、保存し、最小限の追加パラメータと計算しか導入しない。
ダウンストリームタスクにまたがる10種類のセグメンテーションデータセットでHQ-SAMの有効性を示し,そのうち8つをゼロショット転送プロトコルで評価した。
論文 参考訳(メタデータ) (2023-06-02T14:23:59Z) - Mask Encoding for Single Shot Instance Segmentation [97.99956029224622]
マスクエンコーディングに基づくインスタンスセグメンテーション(MEInst)と呼ばれる単純なシングルショットインスタンスセグメンテーションフレームワークを提案する。
二次元マスクを直接予測する代わりに、MEInstはそれをコンパクトで固定的な表現ベクトルに蒸留する。
よりシンプルでフレキシブルな一段階のインスタンスセグメンテーション手法は、競合性能も達成できることを示す。
論文 参考訳(メタデータ) (2020-03-26T02:51:17Z) - SOLOv2: Dynamic and Fast Instance Segmentation [102.15325936477362]
パフォーマンスの高いシンプルで直接的で高速なインスタンスセグメンテーションフレームワークを構築しています。
オブジェクトセグメンタのマスクヘッドを動的に学習することで、さらに一歩前進する。
簡単な直接インスタンス分割システムを示し,高速化と精度の両面において,いくつかの最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-03-23T09:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。