論文の概要: Foundation Model Assisted Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2312.03585v2
- Date: Sun, 10 Dec 2023 18:19:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 21:54:50.786230
- Title: Foundation Model Assisted Weakly Supervised Semantic Segmentation
- Title(参考訳): 弱教師付きセマンティックセグメンテーションを支援する基礎モデル
- Authors: Xiaobo Yang and Xiaojin Gong
- Abstract要約: 高品質なセグメンテーション種子を生成するためのCLIPとSAMに基づくフレームワークを提案する。
SAM-based seeding (SAMS) モジュールは、粗いシードマップまたは細かなシードマップを生成するために各タスクに設計および適用される。
実験により, PASCAL VOC 2012の最先端性能とMS 2014の競争結果が得られた。
- 参考スコア(独自算出の注目度): 6.4449802036228565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work aims to leverage pre-trained foundation models, such as contrastive
language-image pre-training (CLIP) and segment anything model (SAM), to address
weakly supervised semantic segmentation (WSSS) using image-level labels. To
this end, we propose a coarse-to-fine framework based on CLIP and SAM for
generating high-quality segmentation seeds. Specifically, we construct an image
classification task and a seed segmentation task, which are jointly performed
by CLIP with frozen weights and two sets of learnable task-specific prompts. A
SAM-based seeding (SAMS) module is designed and applied to each task to produce
either coarse or fine seed maps. Moreover, we design a multi-label contrastive
loss supervised by image-level labels and a CAM activation loss supervised by
the generated coarse seed map. These losses are used to learn the prompts,
which are the only parts need to be learned in our framework. Once the prompts
are learned, we input each image along with the learned segmentation-specific
prompts into CLIP and the SAMS module to produce high-quality segmentation
seeds. These seeds serve as pseudo labels to train an off-the-shelf
segmentation network like other two-stage WSSS methods. Experiments show that
our method achieves the state-of-the-art performance on PASCAL VOC 2012 and
competitive results on MS COCO 2014. Code is available at
https://github.com/HAL-42/FMA-WSSS.git.
- Abstract(参考訳): 本研究の目的は, 画像レベルのラベルを用いた弱教師付きセマンティックセマンティックセグメンテーション (WSSS) に対処するために, コントラッシブ言語イメージ事前学習 (CLIP) やSAMセグメンテーションアプライアンスモデル (SAM) などの事前訓練された基礎モデルを活用することである。
そこで本研究では,高品質なセグメンテーション種子を生成するためのCLIPとSAMに基づく粗粒度フレームワークを提案する。
具体的には,CLIPが凍結重量と2組の学習可能なタスク固有のプロンプトで共同で行う画像分類タスクとシードセグメンテーションタスクを構築する。
SAM-based seeding (SAMS) モジュールは、粗いシードマップまたは細かなシードマップを生成するために各タスクに設計および適用される。
さらに,画像レベルラベルに教師付きマルチラベルコントラスト損失と,生成した粗いシードマップに教師付されたカムアクティベーション損失をデザインする。
これらの損失は、私たちのフレームワークで学ぶべき唯一の部分であるプロンプトを学ぶために使用されます。
ひとたびプロンプトが学習されると、学習したセグメンテーション固有のプロンプトとともにCLIPとSAMSモジュールに各イメージを入力し、高品質なセグメンテーションシードを生成する。
これらのシードは、他の2段階のWSSSメソッドと同様に、市販のセグメンテーションネットワークをトレーニングするための擬似ラベルとして機能する。
実験により, PASCAL VOC 2012の最先端性能とMS COCO 2014の競争結果が得られた。
コードはhttps://github.com/HAL-42/FMA-WSSS.gitで入手できる。
関連論文リスト
- SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - Enhancing Weakly Supervised Semantic Segmentation with Multi-modal Foundation Models: An End-to-End Approach [7.012760526318993]
Weakly-Supervised Semantic (WSSS)は、広範囲なラベリングに対してコスト効率のよい回避手段を提供する。
既存のWSSSメソッドは、セグメンテーション結果の低さにつながるオブジェクトの境界を理解するのに苦労しています。
本稿では,境界ボックス内の視覚的基盤モデルを活用することにより,これらの問題に対処する,新しい効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-10T16:42:25Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic
Segmentation [36.41778553250247]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。
SemPLeSはオブジェクト領域と関連するクラスラベル間のセマンティックアライメントを改善することができる。
論文 参考訳(メタデータ) (2024-01-22T09:41:05Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Multi-Granularity Denoising and Bidirectional Alignment for Weakly
Supervised Semantic Segmentation [75.32213865436442]
本稿では,雑音ラベルと多クラス一般化問題を緩和するために,MDBAモデルを提案する。
MDBAモデルはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5%と70.2%のmIoUに達することができる。
論文 参考訳(メタデータ) (2023-05-09T03:33:43Z) - Integrative Few-Shot Learning for Classification and Segmentation [37.50821005917126]
少数ショット分類とセグメンテーション(FS-CS)の統合タスクについて紹介する。
FS-CSは、ターゲットクラスがいくつかの例で与えられるとき、クエリイメージでターゲットオブジェクトを分類し、セグメントすることを目的としている。
本稿では,FS-CSのための統合的数ショット学習フレームワークを提案し,学習者がクラスワイドな前景マップを構築するように訓練する。
論文 参考訳(メタデータ) (2022-03-29T16:14:40Z) - Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised
Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。
同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。
学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文 参考訳(メタデータ) (2021-07-25T11:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。