Fugu-MT 論文翻訳(概要): SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

論文の概要: SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding

arxiv url: http://arxiv.org/abs/2310.15308v4
Date: Mon, 10 Jun 2024 19:19:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 00:58:30.831360
Title: SAM-CLIP: Merging Vision Foundation Models towards Semantic and Spatial Understanding
Title（参考訳）: SAM-CLIP:意味的・空間的理解に向けた視覚基礎モデルの融合
Authors: Haoxiang Wang, Pavan Kumar Anasosalu Vasu, Fartash Faghri, Raviteja Vemulapalli, Mehrdad Farajtabar, Sachin Mehta, Mohammad Rastegari, Oncel Tuzel, Hadi Pouransari,
Abstract要約: 一般公開されたビジョンファウンデーションモデル(VFM)の展望は急速に拡大している。我々は,VFMを効率よく統合したモデルにマージする簡単なレシピを導入し,その専門知識を吸収する。本手法をSAMおよびCLIPに適用することにより,SAMとCLIPの機能を組み合わせた一元モデルであるSAM-CLIPを単一視覚変換器に適用する。
参考スコア（独自算出の注目度）: 40.40630116715132
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The landscape of publicly available vision foundation models (VFMs), such as CLIP and Segment Anything Model (SAM), is expanding rapidly. VFMs are endowed with distinct capabilities stemming from their pre-training objectives. For instance, CLIP excels in semantic understanding, while SAM specializes in spatial understanding for segmentation. In this work, we introduce a simple recipe to efficiently merge VFMs into a unified model that absorbs their expertise. Our method integrates techniques of multi-task learning, continual learning, and distillation. Further, it demands significantly less computational cost compared to traditional multi-task training from scratch, and it only needs a small fraction of the pre-training datasets that were initially used to train individual models. By applying our method to SAM and CLIP, we obtain SAM-CLIP: a unified model that combines the capabilities of SAM and CLIP into a single vision transformer. Compared with deploying SAM and CLIP independently, our merged model, SAM-CLIP, reduces storage and compute costs for inference, making it well-suited for edge device applications. We show that SAM-CLIP not only retains the foundational strengths of SAM and CLIP, but also introduces synergistic functionalities, notably in zero-shot semantic segmentation, where SAM-CLIP establishes new state-of-the-art results on 5 benchmarks. It outperforms previous models that are specifically designed for this task by a large margin, including +6.8% and +5.9% mean IoU improvement on Pascal-VOC and COCO-Stuff datasets, respectively.
Abstract（参考訳）: CLIP や Segment Anything Model (SAM) など,一般公開されたビジョンファウンデーションモデル (VFM) の展望は急速に拡大している。 VFMには、訓練済みの目標から派生した、異なる能力が与えられている。例えば、CLIPはセグメンテーションの空間的理解に特化しているのに対し、SAMはセグメンテーションの空間的理解に特化している。本研究では,VFMを効率よく統合したモデルにマージする簡単なレシピを提案する。本手法は,マルチタスク学習,連続学習,蒸留技術を統合する。さらに、スクラッチから行う従来のマルチタスクトレーニングに比べて計算コストが大幅に削減され、個々のモデルのトレーニングに使用された事前トレーニングデータセットのごく一部しか必要としない。本手法をSAMおよびCLIPに適用することにより,SAMとCLIPの機能を組み合わせた一元モデルであるSAM-CLIPを単一視覚変換器に適用する。 SAMとCLIPを独立してデプロイするのに対し、SAM-CLIPという統合モデルでは、推論のストレージと計算コストを削減し、エッジデバイスアプリケーションに適しています。 SAM-CLIPはSAMとCLIPの基礎的強みを保っているだけでなく、特にゼロショットセマンティックセマンティックセグメンテーションにおいて相乗的機能を導入し、SAM-CLIPは5つのベンチマークで新しい最先端結果を確立している。 6.8%、+5.9%はPascal-VOCとCOCO-StuffのデータセットのIoUの改善を意味している。

関連論文リスト

InfoSAM: Fine-Tuning the Segment Anything Model from An Information-Theoretic Perspective [9.466559751950639]
Segment Anything Model (SAM)は、一般的なタスクにおいて印象的なゼロショット機能を示すが、専門領域では苦労している。本研究では,SAMの蒸留・保存による微調整を促進する情報理論であるInfoSAMを提案する。多様なベンチマークによる実験では、InfoSAMが現実世界のタスクにおけるSAMファミリーのパフォーマンスを改善する効果を検証している。
論文参考訳（メタデータ） (2025-05-28T03:09:22Z)
SCHNet: SAM Marries CLIP for Human Parsing [11.299133502596517]
Segment Anything Model (SAM) と Contrastive Language-Image Pre-Training Model (CLIP) は,セグメンテーションおよび検出タスクにおいて有望な性能を示した。我々は、SAMとCLIPの機能を効果的に統合し、人間の解析に役立てるために、高効率なモジュールを定式化する。
論文参考訳（メタデータ） (2025-03-28T08:40:06Z)
SAMPa: Sharpness-aware Minimization Parallelized [51.668052890249726]
シャープネス認識(SAM)はニューラルネットワークの一般化を改善することが示されている。 SAMの更新には2つの勾配を瞬時に計算する必要がある。我々は,SAMPaと呼ばれるSAMの簡単な修正を提案し,この2つの勾配計算を完全に並列化することができる。
論文参考訳（メタデータ） (2024-10-14T16:21:23Z)
Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。 UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。 UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文参考訳（メタデータ） (2024-09-23T19:05:50Z)
TS-SAM: Fine-Tuning Segment-Anything Model for Downstream Tasks [10.75125721857487]
微調整されたSAMとドメイン固有のモデルの間には、依然として大きなパフォーマンスギャップがあります。本稿では,SAM の強力な特徴をサイドネットワークトレーニングに統合し,包括的特徴融合を実現する Two-Stream SAM (TS-SAM) を提案する。 3つのタスクから得られた10の公開データセットに対する大規模な実験により、TS-SAMは、最近提案されたSAM-AdapterとSSOMよりも大幅に優れているだけでなく、SOTAドメイン固有のモデルとの競合性能も達成している。
論文参考訳（メタデータ） (2024-08-03T18:08:51Z)
PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:03Z)
WSI-SAM: Multi-resolution Segment Anything Model (SAM) for histopathology whole-slide images [8.179859593451285]
病理画像の正確なオブジェクト分割機能を備えたWSI-SAM, Segment Anything Model (SAM) を提案する。トレーニングオーバーヘッドを最小限にしながら、トレーニング済みの知識を完全に活用するために、SAMは凍結し、最小限のパラメータしか導入しません。本モデルでは, 膵管癌 in situ (DCIS) セグメンテーションタスクと乳癌転移セグメンテーションタスクにおいて, SAMを4.1, 2.5パーセント上回った。
論文参考訳（メタデータ） (2024-03-14T10:30:43Z)
ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation [5.376142948115328]
本稿では,ZSASのためのCLIPおよびSAM協調フレームワークであるClipSAMを提案する。 ClipSAMの背後にある洞察は、CLIPのセマンティック理解機能を、異常なローカライゼーションと粗いセグメンテーションに活用することである。本稿では,視覚的特徴と対話するためのUMCI(Unified Multi-scale Cross-modal Interaction)モジュールについて述べる。
論文参考訳（メタデータ） (2024-01-23T11:20:03Z)
Open-Vocabulary SAM: Segment and Recognize Twenty-thousand Classes Interactively [69.97238935096094]
Open-Vocabulary SAMはSAMにインスパイアされたモデルであり、対話的なセグメンテーションと認識のために設計されている。約22,000のクラスを分類・認識できる。
論文参考訳（メタデータ） (2024-01-05T18:59:22Z)
TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文参考訳（メタデータ） (2023-12-21T12:26:11Z)
Boosting Segment Anything Model Towards Open-Vocabulary Learning [69.24734826209367]
Segment Anything Model (SAM)は、新しいパラダイムビジョン基盤モデルとして登場した。 SAMは様々な領域で応用や適応を発見できるが、その主な制限はオブジェクトの意味を把握できないことである。我々は,SAMとオープン語彙オブジェクト検出器をエンドツーエンドフレームワークでシームレスに統合するSamborを提案する。
論文参考訳（メタデータ） (2023-12-06T17:19:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。