論文の概要: Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2212.04994v1
- Date: Fri, 9 Dec 2022 17:23:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 15:29:18.581029
- Title: Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive
Learning
- Title(参考訳): patch aligned contrastive learningを用いたオープン語彙意味セグメンテーション
- Authors: Jishnu Mukhoti, Tsung-Yu Lin, Omid Poursaeed, Rui Wang, Ashish Shah,
Philip H.S. Torr, Ser-Nam Lim
- Abstract要約: Patch Aligned Contrastive Learning (PACL)を導入する。
PACLは画像レベルの予測にも適用可能であることを示し、CLIPバックボーンで使用すると、ゼロショット分類精度が全般的に向上することを示した。
- 参考スコア(独自算出の注目度): 82.70453633641466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Patch Aligned Contrastive Learning (PACL), a modified
compatibility function for CLIP's contrastive loss, intending to train an
alignment between the patch tokens of the vision encoder and the CLS token of
the text encoder. With such an alignment, a model can identify regions of an
image corresponding to a given text input, and therefore transfer seamlessly to
the task of open vocabulary semantic segmentation without requiring any
segmentation annotations during training. Using pre-trained CLIP encoders with
PACL, we are able to set the state-of-the-art on the task of open vocabulary
zero-shot segmentation on 4 different segmentation benchmarks: Pascal VOC,
Pascal Context, COCO Stuff and ADE20K. Furthermore, we show that PACL is also
applicable to image-level predictions and when used with a CLIP backbone,
provides a general improvement in zero-shot classification accuracy compared to
CLIP, across a suite of 12 image classification datasets.
- Abstract(参考訳): 本稿では,視覚エンコーダのパッチトークンとテキストエンコーダのclsトークンとのアライメントをトレーニングすることを目的とした,クリップのコントラスト損失に対する修正互換性機能であるpatch aligned contrastive learning (pacl)を提案する。
このようなアライメントにより、モデルは与えられたテキスト入力に対応する画像の領域を特定し、トレーニング中にセグメンテーションアノテーションを必要とせずにオープン語彙セグメンテーションのタスクにシームレスに転送することができる。
PACLで事前学習したCLIPエンコーダを使用して、Pascal VOC、Pascal Context、COCO Stuff、ADE20Kの4つのセグメンテーションベンチマークで、オープン語彙ゼロショットセグメンテーションのタスクに最先端を設定できる。
さらに、PACLは画像レベルの予測にも適用可能であることを示し、CLIPのバックボーンで使用すると、12の画像分類データセットに対して、CLIPと比較してゼロショット分類精度が全般的に向上することを示した。
関連論文リスト
- CorrCLIP: Reconstructing Correlations in CLIP with Off-the-Shelf Foundation Models for Open-Vocabulary Semantic Segmentation [6.356330972370584]
オープン語彙セマンティックセグメンテーションのためのトレーニング不要なアプローチであるCorrCLIPを紹介する。
基礎モデルを用いたパッチ間の相関関係を著しく再構築する。
トレーニングフリーの方法として、CorrCLIPは8つの挑戦的なベンチマークで顕著な改善を実現している。
論文 参考訳(メタデータ) (2024-11-15T10:14:55Z) - Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation [38.16802763051431]
トレーニング不要なセマンティックセグメンテーション戦略であるCLIPtraseを提案する。
パッチ間の自己相関を補正することで、局所的な特徴認識を高める。
実験の結果、CLIPよりも平均して9つのセグメンテーションベンチマークで22.3%先行していることがわかった。
論文 参考訳(メタデータ) (2024-07-11T08:12:16Z) - Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation [72.47110803885235]
ゼロショットセマンティックセグメンテーションのための新しいフレームワークCascade-CLIPを提案する。
このフレームワークはCOCO-Stuff, Pascal-VOC, Pascal-Contextといったセグメンテーションベンチマークにおいて優れたゼロショット性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T08:32:51Z) - SemPLeS: Semantic Prompt Learning for Weakly-Supervised Semantic
Segmentation [36.41778553250247]
Weakly-Supervised Semantic (WSSS) は、画像レベルの監督のみで画像データを用いてセグメンテーションモデルを訓練することを目的としている。
本稿では,CLIP潜伏空間を効果的に促進するためのWSSS(Semantic Prompt Learning for WSSS)フレームワークを提案する。
SemPLeSはオブジェクト領域と関連するクラスラベル間のセマンティックアライメントを改善することができる。
論文 参考訳(メタデータ) (2024-01-22T09:41:05Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - [CLS] Token is All You Need for Zero-Shot Semantic Segmentation [60.06653755695356]
本稿では,事前学習された視覚言語モデルCLIPに基づく,恥ずかしいほどシンプルで効果的なゼロショットセマンティックセマンティックセマンティックセマンティクス(ZS3)法を提案する。
具体的には、テキストブランチから出力される[text]トークンを補助的なセマンティックプロンプトとして使用し、ViTベースのビジュアルエンコーダの浅い層におけるナビゲーション[text]トークンを置き換える。
提案したZS3法は,SOTA性能を達成し,その数発のセマンティックセマンティックセグメンテーション法と同等である。
論文 参考訳(メタデータ) (2023-04-13T01:35:07Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。