論文の概要: A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model
- arxiv url: http://arxiv.org/abs/2112.14757v1
- Date: Wed, 29 Dec 2021 18:56:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 16:04:56.182756
- Title: A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model
- Title(参考訳): 事前学習型視覚言語モデルによるゼロショットセマンティックセマンティックセグメンテーションのための簡易ベースライン
- Authors: Mengde Xu, Zheng Zhang, Fangyun Wei, Yutong Lin, Yue Cao, Han Hu,
Xiang Bai
- Abstract要約: オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 61.58071099082296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, zero-shot image classification by vision-language pre-training has
demonstrated incredible achievements, that the model can classify arbitrary
category without seeing additional annotated images of that category. However,
it is still unclear how to make the zero-shot recognition working well on
broader vision problems, such as object detection and semantic segmentation. In
this paper, we target for zero-shot semantic segmentation, by building it on an
off-the-shelf pre-trained vision-language model, i.e., CLIP. It is difficult
because semantic segmentation and the CLIP model perform on different visual
granularity, that semantic segmentation processes on pixels while CLIP performs
on images. To remedy the discrepancy on processing granularity, we refuse the
use of the prevalent one-stage FCN based framework, and advocate a two-stage
semantic segmentation framework, with the first stage extracting generalizable
mask proposals and the second stage leveraging an image based CLIP model to
perform zero-shot classification on the masked image crops which are generated
in the first stage. Our experimental results show that this simple framework
surpasses previous state-of-the-arts by a large margin: +29.5 hIoU on the
Pascal VOC 2012 dataset, and +8.9 hIoU on the COCO Stuff dataset. With its
simplicity and strong performance, we hope this framework to serve as a
baseline to facilitate the future research.
- Abstract(参考訳): 近年,視覚言語前訓練によるゼロショット画像分類が驚くべき成果を示しており,このモデルでは,そのカテゴリの付加注釈画像を見ることなく任意のカテゴリを分類できる。
しかし、オブジェクト検出やセマンティックセグメンテーションなど、より広範な視覚問題に対して、ゼロショット認識をうまく機能させる方法はまだ不明である。
本稿では,既成の視覚言語モデル,すなわちクリップ上に構築することで,ゼロショット意味セグメンテーションを目標とする。
セマンティックセグメンテーションとCLIPモデルは、画像上でCLIPが実行される間、画素上でセマンティックセグメンテーションプロセスを実行するため、難しい。
粒度処理の相違を解消するため,我々は,一般的な一段階のfcnベースのフレームワークの使用を拒否し,第1段階は汎用マスクの提案を抽出し,第2段階は画像に基づくクリップモデルを利用して第1段階のマスク画像作物に対してゼロショット分類を行う2段階のセマンティックセグメンテーションフレームワークを提唱する。
この単純なフレームワークはPascal VOC 2012データセットでは+29.5 hIoU、COCO Stuffデータセットでは+8.9 hIoUである。
そのシンプルさと強力なパフォーマンスにより、私たちはこのフレームワークが将来の研究を促進するベースラインになることを期待しています。
関連論文リスト
- Semantic Compositions Enhance Vision-Language Contrastive Learning [46.985865191341944]
CLIPのようなモデルのゼロショット分類と検索能力は、事前学習中に意味論的に複合的な例を導入することで大幅に向上できることを示す。
本手法はキャプションを融合させ,各画像の50%をブレンドして新しい複合試料を作成する。
CLIP-Cの利点は、特に比較的限られた事前学習データを持つ設定で顕著である。
論文 参考訳(メタデータ) (2024-07-01T15:58:20Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Delving into Shape-aware Zero-shot Semantic Segmentation [18.51025849474123]
我々はtextbfshape-aware zero-shot semantic segmentation を提案する。
古典的スペクトル法に着想を得て,自己教師付き画素ワイド特徴を持つラプラシア行列の固有ベクトルを活用することを提案する。
提案手法は,PascalとCOCOの両方でゼロショットセマンティックセマンティックセグメンテーションのための最先端性能を新たに設定する。
論文 参考訳(メタデータ) (2023-04-17T17:59:46Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。