論文の概要: CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2310.02296v2
- Date: Wed, 21 Feb 2024 12:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 20:15:58.129384
- Title: CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation
- Title(参考訳): CLIPは優れた教師である: 帰納的ゼロショットセマンティックセマンティックセグメンテーションのための新しい学習フレームワーク
- Authors: Jialei Chen, Daisuke Deguchi, Chenkai Zhang, Xu Zheng, Hiroshi Murase
- Abstract要約: 汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
- 参考スコア(独自算出の注目度): 6.181169909576527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalized Zero-shot Semantic Segmentation aims to segment both seen and
unseen categories only under the supervision of the seen ones. To tackle this,
existing methods adopt the large-scale Vision Language Models (VLMs) which
obtain outstanding zero-shot performance. However, as the VLMs are designed for
classification tasks, directly adapting the VLMs may lead to sub-optimal
performance. Consequently, we propose CLIP-ZSS (Zero-shot Semantic
Segmentation), a simple but effective training framework that enables any image
encoder designed for closed-set segmentation applied in zero-shot and
open-vocabulary tasks in testing without combining with VLMs or inserting new
modules. CLIP-ZSS consists of two key modules: Global Learning Module (GLM) and
Pixel Learning Module (PLM). GLM is proposed to probe the knowledge from the
CLIP visual encoder by pulling the CLS token and the dense features from the
image encoder of the same image and pushing others apart. Moreover, to enhance
the ability to discriminate unseen categories, PLM consisting of pseudo labels
and weight generation is designed. To generate semantically discriminated
pseudo labels, a multi-scale K-Means with mask fusion working on the dense
tokens is proposed. In pseudo weight generation, a synthesizer generating
pseudo semantic features for the unannotated area is introduced. Experiments on
three benchmarks show large performance gains compared with SOTA methods.
- Abstract(参考訳): 一般化されたゼロショットセマンティクスセグメンテーションは、見たカテゴリと見えないカテゴリの両方を、見たカテゴリの監督の下でのみセグメンテーションすることを目的としている。
これを解決するために既存の手法では、優れたゼロショット性能を得る大規模ビジョン言語モデル(VLM)を採用している。
しかしながら、VLMは分類タスク用に設計されているため、VLMを直接適応させることは、準最適性能をもたらす可能性がある。
これにより、VLMと組み合わせたり、新しいモジュールを挿入したりすることなく、ゼロショットおよびオープンボキャブラリタスクに適用されるクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現する、シンプルで効果的なトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic Segmentation)を提案する。
CLIP-ZSSはGlobal Learning Module (GLM)とPixel Learning Module (PLM)の2つの主要なモジュールで構成されている。
GLMは、CLIPビジュアルエンコーダからの知識を、同じ画像のイメージエンコーダからCLSトークンと高密度特徴を引き抜いて、他を押し離すことによって探索する。
また、見当たらないカテゴリを判別する能力を高めるために、擬似ラベルと重み生成からなるplmを設計する。
意味的に識別された擬似ラベルを生成するために, マスク融合を用いたマルチスケールK-Meansを提案する。
擬似重み生成では、未注釈領域の擬似意味特徴を生成するシンセサイザーを導入する。
3つのベンチマーク実験では、SOTA法と比較して大きな性能向上を示した。
関連論文リスト
- PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic
Segmentation [36.41778553250247]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。
SemPLeSはオブジェクト領域と関連するクラスラベル間のセマンティックアライメントを改善することができる。
論文 参考訳(メタデータ) (2024-01-22T09:41:05Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。