論文の概要: CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2212.09506v1
- Date: Fri, 16 Dec 2022 06:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 15:10:00.624536
- Title: CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation
- Title(参考訳): clipは効率的なセグメンタでもある:弱い教師付きセマンティックセグメンテーションのためのテキスト駆動アプローチ
- Authors: Yuqi Lin, Minghao Chen, Wenxiao Wang, Boxi Wu, Ke Li, Binbin Lin,
Haifeng Liu, Xiaofei He
- Abstract要約: 画像レベルのラベルを持つ弱教師付きセマンティックセグメンテーション(WSSS)は、コンピュータビジョンにおいて難しい課題である。
本稿では,コントラスト言語-画像事前学習モデル (CLIP) が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,WSSS用CLIP-ESという新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.208559353954833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised semantic segmentation (WSSS) with image-level labels is a
challenging task in computer vision. Mainstream approaches follow a multi-stage
framework and suffer from high training costs. In this paper, we explore the
potential of Contrastive Language-Image Pre-training models (CLIP) to localize
different categories with only image-level labels and without any further
training. To efficiently generate high-quality segmentation masks from CLIP, we
propose a novel framework called CLIP-ES for WSSS. Our framework improves all
three stages of WSSS with special designs for CLIP: 1) We introduce the softmax
function into GradCAM and exploit the zero-shot ability of CLIP to suppress the
confusion caused by non-target classes and backgrounds. Meanwhile, to take full
advantage of CLIP, we re-explore text inputs under the WSSS setting and
customize two text-driven strategies: sharpness-based prompt selection and
synonym fusion. 2) To simplify the stage of CAM refinement, we propose a
real-time class-aware attention-based affinity (CAA) module based on the
inherent multi-head self-attention (MHSA) in CLIP-ViTs. 3) When training the
final segmentation model with the masks generated by CLIP, we introduced a
confidence-guided loss (CGL) to mitigate noise and focus on confident regions.
Our proposed framework dramatically reduces the cost of training for WSSS and
shows the capability of localizing objects in CLIP. Our CLIP-ES achieves SOTA
performance on Pascal VOC 2012 and MS COCO 2014 while only taking 10% time of
previous methods for the pseudo mask generation. Code is available at
https://github.com/linyq2117/CLIP-ES.
- Abstract(参考訳): 画像レベルのラベルを持つ弱教師付きセマンティックセグメンテーション(WSSS)は、コンピュータビジョンにおいて難しい課題である。
主流のアプローチは多段階のフレームワークに従い、高いトレーニングコストに苦しむ。
本稿では,画像レベルラベルのみの異なるカテゴリをローカライズするためのコントラスト型言語画像事前学習モデル(clip)の可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,WSSS用CLIP-ESという新しいフレームワークを提案する。
私たちのフレームワークは、CLIPの特別な設計でWSSSの3つのステージをすべて改善します。
1) GradCAMにソフトマックス関数を導入し,CLIPのゼロショット機能を利用して,非ターゲットクラスやバックグラウンドによる混乱を抑制する。
一方、CLIPを最大限に活用するために、WSSS設定の下でテキスト入力を再発見し、シャープネスベースのプロンプト選択と同義融合という2つのテキスト駆動戦略をカスタマイズする。
2) CAM改善の段階を簡略化するため,CLIP-ViTにおけるMHSAに基づくリアルタイムクラス認識型アフィニティ(CAA)モジュールを提案する。
3)CLIPが生成したマスクを用いて最終セグメンテーションモデルをトレーニングする際,ノイズを緩和し,信頼領域に焦点を合わせるために,信頼誘導損失(CGL)を導入した。
提案するフレームワークは,WSSSのトレーニングコストを大幅に削減し,CLIP内のオブジェクトをローカライズする能力を示す。
私たちのCLIP-ESはPascal VOC 2012とMS COCO 2014のSOTA性能を達成し,従来の擬似マスク生成手法の10%の時間を要した。
コードはhttps://github.com/linyq2117/CLIP-ESで入手できる。
関連論文リスト
- Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Spectral Prompt Tuning:Unveiling Unseen Classes for Zero-Shot Semantic Segmentation [20.880942041889444]
画像からピクセルへのCLIPの適応性を改善する一段階アプローチであるSPT-SEGを提案する。
具体的には、スペクトルプロンプトチューニング(SPT)を導入し、CLIP視覚エンコーダの浅い層にスペクトルプロンプトを組み込む。
我々は、最先端のアプローチよりもメソッドが優れていることを実証し、すべてのクラスでうまく機能し、特に目に見えないクラスを扱うのに優れています。
論文 参考訳(メタデータ) (2023-12-20T04:27:13Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。
CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。
画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-26T14:31:55Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。