論文の概要: EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything
- arxiv url: http://arxiv.org/abs/2312.00863v1
- Date: Fri, 1 Dec 2023 18:31:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:31:03.810922
- Title: EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment
Anything
- Title(参考訳): EfficientSAM: 効率的なセグメンテーションのためのマスク付きイメージ事前トレーニング
- Authors: Yunyang Xiong, Bala Varadarajan, Lemeng Wu, Xiaoyu Xiang, Fanyi Xiao,
Chenchen Zhu, Xiaoliang Dai, Dilin Wang, Fei Sun, Forrest Iandola, Raghuraman
Krishnamoorthi, Vikas Chandra
- Abstract要約: Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
本稿では,軽量なSAMモデルであるEfficientSAMを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築し、効果的な視覚的表現学習を実現するためのマスク付き画像事前学習(SAMI)を活用することに基づいている。
- 参考スコア(独自算出の注目度): 36.553867358541154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Model (SAM) has emerged as a powerful tool for numerous
vision applications. A key component that drives the impressive performance for
zero-shot transfer and high versatility is a super large Transformer model
trained on the extensive high-quality SA-1B dataset. While beneficial, the huge
computation cost of SAM model has limited its applications to wider real-world
applications. To address this limitation, we propose EfficientSAMs,
light-weight SAM models that exhibits decent performance with largely reduced
complexity. Our idea is based on leveraging masked image pretraining, SAMI,
which learns to reconstruct features from SAM image encoder for effective
visual representation learning. Further, we take SAMI-pretrained light-weight
image encoders and mask decoder to build EfficientSAMs, and finetune the models
on SA-1B for segment anything task. We perform evaluations on multiple vision
tasks including image classification, object detection, instance segmentation,
and semantic object detection, and find that our proposed pretraining method,
SAMI, consistently outperforms other masked image pretraining methods. On
segment anything task such as zero-shot instance segmentation, our
EfficientSAMs with SAMI-pretrained lightweight image encoders perform favorably
with a significant gain (e.g., ~4 AP on COCO/LVIS) over other fast SAM models.
- Abstract(参考訳): Segment Anything Model (SAM)は多くの視覚アプリケーションのための強力なツールとして登場した。
ゼロショット転送と高汎用性のための印象的なパフォーマンスを駆動する重要なコンポーネントは、広範な高品質のSA-1Bデータセットに基づいてトレーニングされた超大規模トランスフォーマーモデルである。
しかし、SAMモデルの膨大な計算コストは、より広い現実世界のアプリケーションに限られている。
この制限に対処するため,我々は効率のよいsamモデルである軽量samモデルを提案する。
我々のアイデアは、SAM画像エンコーダから特徴を再構築して効果的な視覚表現学習を行うマスク付き画像事前学習(SAMI)を活用することに基づいている。
さらに,SAMI-pretrained light-weight image encoderとマスクデコーダを用いて効率的なSAMを構築し,任意のタスクをセグメント化するためにSA-1B上でモデルを微調整する。
画像分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックオブジェクト検出など複数の視覚タスクにおける評価を行い,提案手法であるsamiが,他のマスク画像プリトレーニング手法を一貫して上回っていることを見出した。
ゼロショットのインスタンスセグメンテーションのようなタスクでは、SAMIで事前訓練された軽量画像エンコーダによる効率の良いSAMは、他の高速SAMモデルよりも大きな利得(COCO/LVISの4APなど)で良好に機能する。
関連論文リスト
- WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小化しながら、事前学習した知識を完全に活用するために、SAMは凍結し、最小限の追加パラメータと計算を導入します。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation [19.65118388712439]
本稿では,新しいプロンプト駆動型アダプタであるPrompt Adapter Segment Anything Model(PA-SAM)を紹介する。
PA-SAMはプロンプトアダプタを専用にトレーニングすることで、画像から詳細な情報を抽出し、スパースレベルとディーププロンプトレベルの両方でマスクデコーダ機能を最適化する。
実験の結果,PA-SAMは他のSAM法よりも高品質,ゼロショット,オープンセットのセグメンテーションで優れていた。
論文 参考訳(メタデータ) (2024-01-23T19:20:22Z) - ClassWise-SAM-Adapter: Parameter Efficient Fine-tuning Adapts Segment
Anything to SAR Domain for Semantic Segmentation [6.229326337093342]
Segment Anything Model (SAM) は意味情報と一般化能力に依存する様々なセグメンテーションシナリオを抽出する。
The ClassWiseSAM-Adapter (CWSAM) is designed to adapt the high-performing SAM for landcover classification on Spaceborne Synthetic Aperture Radar (SAR) images。
CWSAMは、少ないコンピューティングリソースでパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-01-04T15:54:45Z) - BA-SAM: Scalable Bias-Mode Attention Mask for Segment Anything Model [69.85171104474558]
我々は,Segment Anything Model (SAM)における画像分解能変動の課題に対処する。
SAMはゼロショットの汎用性で知られており、さまざまな画像サイズを持つデータセットに直面するとパフォーマンスが低下する。
我々は、各トークンが隣り合う情報を優先順位付けできるバイアスモードのアテンションマスクを提案する。
論文 参考訳(メタデータ) (2024-01-04T15:34:44Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Improving the Generalization of Segmentation Foundation Model under
Distribution Shift via Weakly Supervised Adaptation [47.804446629216656]
本稿では,アンカー正規化と低ランク微調整を併用した弱教師付き自己学習アーキテクチャを提案する。
本研究では, 自然浄化・破損画像, 医用画像, カモフラージュ画像, ロボット画像など, 5種類の下流セグメンテーションタスクの有効性を検証した。
論文 参考訳(メタデータ) (2023-12-06T13:59:22Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z) - SAM Fails to Segment Anything? -- SAM-Adapter: Adapting SAM in
Underperformed Scenes: Camouflage, Shadow, Medical Image Segmentation, and
More [13.047310918166762]
ドメイン固有の情報や視覚的プロンプトを,単純で効果的なアダプタを用いてセグメント化ネットワークに組み込んだtextbfSAM-Adapterを提案する。
タスク固有のネットワークモデルよりも優れていて、テストしたタスクで最先端のパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-18T17:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。