論文の概要: CLIP-S$^4$: Language-Guided Self-Supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2305.01040v1
- Date: Mon, 1 May 2023 19:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 16:20:23.796060
- Title: CLIP-S$^4$: Language-Guided Self-Supervised Semantic Segmentation
- Title(参考訳): clip-s$^4$:言語ガイド付き自己教師付き意味セグメンテーション
- Authors: Wenbin He, Suphanut Jamonnak, Liang Gou, Liu Ren
- Abstract要約: 自己教師付き画素表現学習と視覚言語モデルを利用して,様々なセマンティックセグメンテーションタスクを実現するCLIP-S$4を提示する。
当社のアプローチでは,4つの一般的なベンチマークに対して,一貫した,実質的なパフォーマンス向上を実現しています。
- 参考スコア(独自算出の注目度): 15.29479338808226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing semantic segmentation approaches are often limited by costly
pixel-wise annotations and predefined classes. In this work, we present
CLIP-S$^4$ that leverages self-supervised pixel representation learning and
vision-language models to enable various semantic segmentation tasks (e.g.,
unsupervised, transfer learning, language-driven segmentation) without any
human annotations and unknown class information. We first learn pixel
embeddings with pixel-segment contrastive learning from different augmented
views of images. To further improve the pixel embeddings and enable
language-driven semantic segmentation, we design two types of consistency
guided by vision-language models: 1) embedding consistency, aligning our pixel
embeddings to the joint feature space of a pre-trained vision-language model,
CLIP; and 2) semantic consistency, forcing our model to make the same
predictions as CLIP over a set of carefully designed target classes with both
known and unknown prototypes. Thus, CLIP-S$^4$ enables a new task of class-free
semantic segmentation where no unknown class information is needed during
training. As a result, our approach shows consistent and substantial
performance improvement over four popular benchmarks compared with the
state-of-the-art unsupervised and language-driven semantic segmentation
methods. More importantly, our method outperforms these methods on unknown
class recognition by a large margin.
- Abstract(参考訳): 既存のセマンティックセグメンテーションアプローチは、しばしばコストのかかるピクセル単位のアノテーションと事前に定義されたクラスによって制限される。
本研究では,自己教師付き画素表現学習と視覚言語モデルを活用するCLIP-S$^4$を提案し,人間のアノテーションや未知のクラス情報なしに,さまざまなセマンティックセグメンテーションタスク(例えば,教師なし,転送学習,言語駆動セグメンテーション)を可能にする。
まず,画像の異なる拡張ビューからピクセル単位のコントラスト学習でピクセル埋め込みを学習する。
画素埋め込みをさらに改善し、言語駆動セマンティックセグメンテーションを可能にするために、視覚言語モデルによってガイドされる2種類の一貫性を設計する。
1) 組込み整合性、画素埋め込みを事前学習された視覚言語モデルCLIPのジョイント特徴空間に整合させる。
2) セマンティクスの一貫性 モデルでは、既知のプロトタイプと未知のプロトタイプの両方を備えた、注意深く設計されたターゲットクラスをクリップするのと同じ予測を行なわなければなりません。
このように、CLIP-S$^4$は、トレーニング中に未知のクラス情報が不要なクラスフリーセマンティックセグメンテーションの新しいタスクを可能にする。
その結果,提案手法は,最先端の教師なしおよび言語駆動意味セマンティクスセグメンテーション法と比較して,4つの人気のあるベンチマークに対して一貫性と実質的な性能改善を示した。
さらに,本手法は,未知のクラス認識において,大きなマージンでこれらの手法より優れる。
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - Boosting Semantic Segmentation from the Perspective of Explicit Class
Embeddings [19.997929884477628]
クラス埋め込みのメカニズムを探求し、クラスマスクに基づいてより明示的で意味のあるクラス埋め込みを生成することができるという知見を得る。
マルチステージ画像特徴との相互作用において,クラス埋め込みを明示的に獲得・拡張する新たなセグメンテーションパラダイムであるECENetを提案する。
ECENetはADE20Kデータセットよりもはるかに少ない計算コストでパフォーマンスを向上し、PASCAL-Contextデータセット上で新たな最先端結果を達成する。
論文 参考訳(メタデータ) (2023-08-24T16:16:10Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Delving into Shape-aware Zero-shot Semantic Segmentation [18.51025849474123]
我々はtextbfshape-aware zero-shot semantic segmentation を提案する。
古典的スペクトル法に着想を得て,自己教師付き画素ワイド特徴を持つラプラシア行列の固有ベクトルを活用することを提案する。
提案手法は,PascalとCOCOの両方でゼロショットセマンティックセマンティックセグメンテーションのための最先端性能を新たに設定する。
論文 参考訳(メタデータ) (2023-04-17T17:59:46Z) - ISLE: A Framework for Image Level Semantic Segmentation Ensemble [5.137284292672375]
従来のセマンティックセグメンテーションネットワークは、最先端の予測品質に到達するために、大量のピクセル単位のアノテートラベルを必要とする。
クラスレベルで異なるセマンティックセグメンテーション手法のセットに「擬似ラベル」のアンサンブルを用いるISLEを提案する。
私たちはISLEの個々のコンポーネントよりも2.4%改善しています。
論文 参考訳(メタデータ) (2023-03-14T13:36:36Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - A Pixel-Level Meta-Learner for Weakly Supervised Few-Shot Semantic
Segmentation [40.27705176115985]
Few-shotのセマンティックセマンティックセグメンテーションは、興味のある新しいクラスのために、地上の真実のピクセルレベルのラベルを持つ少数の画像しか利用できない学習タスクに対処する。
限られたデータとその意味ラベルから擬似画素レベルのセグメンテーションマスクを予測するメタラーニングフレームワークを提案する。
提案する学習モデルは,画素レベルのメタラーナーとみなすことができる。
論文 参考訳(メタデータ) (2021-11-02T08:28:11Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。