論文の概要: SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial
Understanding
- arxiv url: http://arxiv.org/abs/2310.15308v1
- Date: Mon, 23 Oct 2023 19:21:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 22:04:07.150547
- Title: SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial
Understanding
- Title(参考訳): SAM-CLIP:意味的・空間的理解に向けた視覚基礎モデルの融合
- Authors: Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja
Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel
Tuzel, Hadi Pouransari
- Abstract要約: 一般公開されたビジョンファウンデーションモデル(VFM)の展望は急速に拡大している。
本稿では,VFMを効率よく統合したモデルにマージする簡単なレシピを提案する。
本手法をSAMおよびCLIPに適用することにより,SAMとCLIPの強度を1つのバックボーンに整合させる統一モデルSAM-CLIPを導出する。
- 参考スコア(独自算出の注目度): 41.92581579108544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The landscape of publicly available vision foundation models (VFMs), such as
CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed
with distinct capabilities stemming from their pre-training objectives. For
instance, CLIP excels in semantic understanding, while SAM specializes in
spatial understanding for segmentation. In this work, we introduce a simple
recipe to efficiently merge VFMs into a unified model that assimilates their
expertise. Our proposed method integrates multi-task learning, continual
learning techniques, and teacher-student distillation. This strategy entails
significantly less computational cost compared to traditional multi-task
training from scratch. Additionally, it only demands a small fraction of the
pre-training datasets that were initially used to train individual models. By
applying our method to SAM and CLIP, we derive SAM-CLIP: a unified model that
amalgamates the strengths of SAM and CLIP into a single backbone, making it apt
for edge device applications. We show that SAM-CLIP learns richer visual
representations, equipped with both localization and semantic features,
suitable for a broad range of vision tasks. SAM-CLIP obtains improved
performance on several head probing tasks when compared with SAM and CLIP. We
further show that SAM-CLIP not only retains the foundational strengths of its
precursor models but also introduces synergistic functionalities, most notably
in zero-shot semantic segmentation, where SAM-CLIP establishes new
state-of-the-art results on 5 benchmarks. It outperforms previous models that
are specifically designed for this task by a large margin, including +6.8% and
+5.9% mean IoU improvement on Pascal-VOC and COCO-Stuff datasets, respectively.
- Abstract(参考訳): CLIP や Segment Anything Model (SAM) など,一般公開されたビジョンファウンデーションモデル (VFM) の展望は急速に拡大している。
vfmには、訓練前の目的から生じる異なる能力が与えられている。
例えば、CLIPは意味理解に優れ、SAMはセグメンテーションのための空間理解に特化している。
本稿では,vfmsを統一モデルに効率的に統合し,その専門性を統一する簡単なレシピを提案する。
提案手法は, マルチタスク学習, 連続学習技術, 教師-学生蒸留を統合した。
この戦略は、従来のマルチタスクトレーニングに比べ、計算コストを大幅に削減する。
さらに、個々のモデルをトレーニングするために最初に使用されたトレーニング済みデータセットのごく一部しか必要としない。
SAM-CLIPはSAMとCLIPの強度を1つのバックボーンに統合し、エッジデバイスアプリケーションに適応する統一モデルである。
SAM-CLIPは、よりリッチな視覚表現を学習し、広範囲の視覚タスクに適した局所化と意味的特徴を持つことを示す。
SAM-CLIP は SAM や CLIP と比較して,複数の頭部探索タスクのパフォーマンス向上を実現している。
さらに、SAM-CLIPは前駆体モデルの基礎的強みを保持するだけでなく、特にゼロショットセマンティックセマンティックセグメンテーションにおいて相乗的機能を導入し、SAM-CLIPは5つのベンチマークで新しい最先端結果を確立する。
これは、pascal-voc と coco-stuff データセットでそれぞれ +6.8% と +5.9% の平均 iou 改善を含む、このタスク用に特別に設計された以前のモデルを上回る。
関連論文リスト
- SAMPa: Sharpness-aware Minimization Parallelized [51.668052890249726]
シャープネス認識(SAM)はニューラルネットワークの一般化を改善することが示されている。
SAMの更新には2つの勾配を瞬時に計算する必要がある。
我々は,SAMPaと呼ばれるSAMの簡単な修正を提案し,この2つの勾配計算を完全に並列化することができる。
論文 参考訳(メタデータ) (2024-10-14T16:21:23Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - TS-SAM: Fine-Tuning Segment-Anything Model for Downstream Tasks [10.75125721857487]
微調整されたSAMとドメイン固有のモデルの間には、依然として大きなパフォーマンスギャップがあります。
本稿では,SAM の強力な特徴をサイドネットワークトレーニングに統合し,包括的特徴融合を実現する Two-Stream SAM (TS-SAM) を提案する。
3つのタスクから得られた10の公開データセットに対する大規模な実験により、TS-SAMは、最近提案されたSAM-AdapterとSSOMよりも大幅に優れているだけでなく、SOTAドメイン固有のモデルとの競合性能も達成している。
論文 参考訳(メタデータ) (2024-08-03T18:08:51Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。
トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。
本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文 参考訳(メタデータ) (2024-03-14T10:30:43Z) - ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation [5.376142948115328]
本稿では,ZSASのためのCLIPおよびSAM協調フレームワークであるClipSAMを提案する。
ClipSAMの背後にある洞察は、CLIPのセマンティック理解機能を、異常なローカライゼーションと粗いセグメンテーションに活用することである。
本稿では,視覚的特徴と対話するためのUMCI(Unified Multi-scale Cross-modal Interaction)モジュールについて述べる。
論文 参考訳(メタデータ) (2024-01-23T11:20:03Z) - Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively [69.97238935096094]
Open-Vocabulary SAMはSAMにインスパイアされたモデルであり、対話的なセグメンテーションと認識のために設計されている。
約22,000のクラスを分類・認識できる。
論文 参考訳(メタデータ) (2024-01-05T18:59:22Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。