論文の概要: Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2406.11189v1
- Date: Mon, 17 Jun 2024 03:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:33:51.792178
- Title: Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation
- Title(参考訳): Frozen CLIP: 弱監視セマンティックセグメンテーションのための強力なバックボーン
- Authors: Bingfeng Zhang, Siyue Yu, Yunchao Wei, Yao Zhao, Jimin Xiao,
- Abstract要約: 弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。
具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。
新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
- 参考スコア(独自算出の注目度): 90.35249276717038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised semantic segmentation has witnessed great achievements with image-level labels. Several recent approaches use the CLIP model to generate pseudo labels for training an individual segmentation model, while there is no attempt to apply the CLIP model as the backbone to directly segment objects with image-level labels. In this paper, we propose WeCLIP, a CLIP-based single-stage pipeline, for weakly supervised semantic segmentation. Specifically, the frozen CLIP model is applied as the backbone for semantic feature extraction, and a new decoder is designed to interpret extracted semantic features for final prediction. Meanwhile, we utilize the above frozen backbone to generate pseudo labels for training the decoder. Such labels cannot be optimized during training. We then propose a refinement module (RFM) to rectify them dynamically. Our architecture enforces the proposed decoder and RFM to benefit from each other to boost the final performance. Extensive experiments show that our approach significantly outperforms other approaches with less training cost. Additionally, our WeCLIP also obtains promising results for fully supervised settings. The code is available at https://github.com/zbf1991/WeCLIP.
- Abstract(参考訳): 弱教師付きセマンティックセグメンテーションは、画像レベルのラベルで大きな成果をみせた。
いくつかの最近のアプローチでは、個別のセグメンテーションモデルをトレーニングするために擬似ラベルを生成するためにCLIPモデルを使用しているが、イメージレベルのラベルでオブジェクトを直接セグメンテーションするためにCLIPモデルをバックボーンとして適用しようとする試みはない。
本稿では,CLIPをベースとした単一ステージパイプラインであるWeCLIPを提案する。
具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用し、最終的な予測のために抽出された意味的特徴を解釈する新しいデコーダを設計する。
一方、上述した冷凍バックボーンを用いて、デコーダのトレーニングに擬似ラベルを生成する。
このようなラベルはトレーニング中に最適化できない。
そこで我々は,それらを動的に修正するための改良モジュール (RFM) を提案する。
我々のアーキテクチャでは、提案されたデコーダとRAMが相互に恩恵を受け、最終的なパフォーマンスが向上する。
大規模な実験により、我々のアプローチはトレーニングコストを抑えて他のアプローチよりも大幅に優れています。
さらに、WeCLIPは完全な教師付き設定のための有望な結果も得る。
コードはhttps://github.com/zbf1991/WeCLIPで入手できる。
関連論文リスト
- ReCLIP++: Learn to Rectify the Bias of CLIP for Unsupervised Semantic Segmentation [6.012828781329036]
教師なしセマンティックセグメンテーション作業を容易にするために,CLIP に存在するバイアスを明示的にモデル化し,修正することを提案する。
学習可能な'参照'プロンプトを用いて、クラス参照バイアスを符号化し、視覚変換器に位置埋め込みを投影し、空間参照バイアスを符号化する。
バイアスモデリング及び修正プロセスを有意義かつ効果的にするために、マスキングされた視覚特徴と異なるクラスのテキスト特徴とに基づく対照的な損失を課す。
論文 参考訳(メタデータ) (2024-08-13T09:10:48Z) - Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation [72.47110803885235]
ゼロショットセマンティックセグメンテーションのための新しいフレームワークCascade-CLIPを提案する。
このフレームワークはCOCO-Stuff, Pascal-VOC, Pascal-Contextといったセグメンテーションベンチマークにおいて優れたゼロショット性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T08:32:51Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds [62.49198183539889]
我々は,LiDAR点雲を用いた屋外シーンのためのラベル効率のよいセマンティックセマンティックセマンティクスパイプラインを提案する。
本手法は,半弱教師付き学習を用いて,効率的なラベリング手法を設計する。
提案手法は,100%ラベル付き完全教師付き手法と比較して,さらに競争力が高い。
論文 参考訳(メタデータ) (2022-10-14T19:13:36Z) - Distilling Ensemble of Explanations for Weakly-Supervised Pre-Training
of Image Segmentation Models [54.49581189337848]
本稿では,分類データセットに基づく画像分割モデルのエンドツーエンド事前学習を可能にする手法を提案する。
提案手法は重み付きセグメンテーション学習法を利用して,重み付きセグメンテーションネットワークを事前訓練する。
実験の結果,ImageNetにソースデータセットとしてPSSLを伴って提案されたエンドツーエンドの事前トレーニング戦略が,さまざまなセグメンテーションモデルの性能向上に成功していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T13:02:32Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。