論文の概要: CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2310.02296v1
- Date: Tue, 3 Oct 2023 09:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 18:25:43.252772
- Title: CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation
- Title(参考訳): CLIPは優れた教師である: 帰納的ゼロショットセマンティックセマンティックセグメンテーションのための新しい学習フレームワーク
- Authors: Jialei Chen, Daisuke Deguchi, Chenkai Zhang, Xu Zheng, Hiroshi Murase
- Abstract要約: 画素ごとの分類セグメンテーションモデルに適用可能な新しい学習フレームワークであるCLIPTeacherを提案する。
CLIPTeacherはGlobal Learning Module(GLM)とPixel Learning Module(PLM)の2つの主要なモジュールで構成されている。
- 参考スコア(独自算出の注目度): 6.181169909576527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Generalized Zero-shot Semantic Segmentation (GZLSS) methods apply
either finetuning the CLIP paradigm or formulating it as a mask classification
task, benefiting from the Vision-Language Models (VLMs). However, the
fine-tuning methods are restricted with fixed backbone models which are not
flexible for segmentation, and mask classification methods heavily rely on
additional explicit mask proposers. Meanwhile, prevalent methods utilize only
seen categories which is a great waste, i.e., neglecting the area exists but
not annotated. To this end, we propose CLIPTeacher, a new learning framework
that can be applied to various per-pixel classification segmentation models
without introducing any explicit mask proposer or changing the structure of
CLIP, and utilize both seen and ignoring areas. Specifically, CLIPTeacher
consists of two key modules: Global Learning Module (GLM) and Pixel Learning
Module (PLM). Specifically, GLM aligns the dense features from an image encoder
with the CLS token, i.e., the only token trained in CLIP, which is a simple but
effective way to probe global information from the CLIP models. In contrast,
PLM only leverages dense tokens from CLIP to produce high-level pseudo
annotations for ignoring areas without introducing any extra mask proposer.
Meanwhile, PLM can fully take advantage of the whole image based on the pseudo
annotations. Experimental results on three benchmark datasets: PASCAL VOC 2012,
COCO-Stuff 164k, and PASCAL Context show large performance gains, i.e., 2.2%,
1.3%, and 8.8%
- Abstract(参考訳): 既存の汎用ゼロショットセマンティックセマンティックセグメンテーション(GZLSS)法は、CLIPパラダイムを微調整するか、マスク分類タスクとして定式化し、ビジョンランゲージモデル(VLM)の恩恵を受けている。
しかし、微調整法はセグメント化に柔軟性のない固定バックボーンモデルに制限されており、マスク分類法は追加の明示的なマスク提案者に大きく依存している。
一方, 広く普及している手法では, 大きな廃棄物である目に見えるカテゴリーのみを利用する。
この目的のために,CLIPTeacherを提案する。これは,明示的なマスクの提案やCLIPの構造の変更を伴わずに,さまざまな画素単位の分類セグメンテーションモデルに適用可能な,新しい学習フレームワークである。
具体的には、CLIPTeacherはGlobal Learning Module(GLM)とPixel Learning Module(PLM)の2つの主要なモジュールで構成される。
特に、GLMは画像エンコーダからCLIPでトレーニングされた唯一のトークン、すなわちCLIPモデルからグローバル情報を探索する単純で効果的な方法であるCRSトークンと、密集した特徴を一致させる。
対照的に、PLMはCLIPからの高密度トークンのみを利用して、マスクプロジェクタを導入することなく、領域を無視した高レベルの偽アノテーションを生成する。
一方、PLMは擬似アノテーションに基づいて画像全体をフルに活用することができる。
PASCAL VOC 2012、COCO-Stuff 164k、PASCAL Contextの3つのベンチマークデータセットの実験結果は、大きなパフォーマンス向上、すなわち2.2%、1.3%、そして8.8%を示している。
関連論文リスト
- PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic
Segmentation [36.41778553250247]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。
SemPLeSはオブジェクト領域と関連するクラスラベル間のセマンティックアライメントを改善することができる。
論文 参考訳(メタデータ) (2024-01-22T09:41:05Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。