論文の概要: Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP
- arxiv url: http://arxiv.org/abs/2210.04150v3
- Date: Sat, 1 Apr 2023 19:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 00:38:47.789467
- Title: Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP
- Title(参考訳): マスク適応CLIPを用いたオープンボキャブラリセマンティックセマンティックセグメンテーション
- Authors: Feng Liang, Bichen Wu, Xiaoliang Dai, Kunpeng Li, Yinan Zhao, Hang
Zhang, Peizhao Zhang, Peter Vajda, Diana Marculescu
- Abstract要約: Open-vocabulary semantic segmentationは、トレーニング中に見られなかったかもしれないテキスト記述に従って、イメージをセマンティック領域に分割することを目的としている。
最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、次にCLIPなどの事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。
マスクされた画像領域とその対応するテキスト記述の集合上でCLIPを微調整する。
特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の状態より+8.5%高い。
- 参考スコア(独自算出の注目度): 45.81698881151867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary semantic segmentation aims to segment an image into semantic
regions according to text descriptions, which may not have been seen during
training. Recent two-stage methods first generate class-agnostic mask proposals
and then leverage pre-trained vision-language models, e.g., CLIP, to classify
masked regions. We identify the performance bottleneck of this paradigm to be
the pre-trained CLIP model, since it does not perform well on masked images. To
address this, we propose to finetune CLIP on a collection of masked image
regions and their corresponding text descriptions. We collect training data by
mining an existing image-caption dataset (e.g., COCO Captions), using CLIP to
match masked image regions to nouns in the image captions. Compared with the
more precise and manually annotated segmentation labels with fixed classes
(e.g., COCO-Stuff), we find our noisy but diverse dataset can better retain
CLIP's generalization ability. Along with finetuning the entire model, we
utilize the "blank" areas in masked images using a method we dub mask prompt
tuning. Experiments demonstrate mask prompt tuning brings significant
improvement without modifying any weights of CLIP, and it can further improve a
fully finetuned model. In particular, when trained on COCO and evaluated on
ADE20K-150, our best model achieves 29.6% mIoU, which is +8.5% higher than the
previous state-of-the-art. For the first time, open-vocabulary generalist
models match the performance of supervised specialist models in 2017 without
dataset-specific adaptations.
- Abstract(参考訳): open-vocabulary semantic segmentationは、テキスト記述に従ってイメージを意味領域に分割することを目的としている。
最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、CLIPのような事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。
我々は,このパラダイムの性能ボトルネックを,マスク画像上では良好に動作しないため,事前訓練されたCLIPモデルとみなす。
これを解決するために,マスク画像領域とその対応するテキスト記述の集合上でCLIPを微調整することを提案する。
既存の画像キャプチャデータセット(例えばCOCOキャプション)をマイニングしてトレーニングデータを収集し,CLIPを用いて画像キャプション内の名詞にマスクされた画像領域をマッチングする。
より正確で手動で注釈付けされたセグメンテーションラベルと固定クラス(例えばCOCO-Stuff)を比較すると、ノイズがあるが多様なデータセットはCLIPの一般化能力を維持できる。
モデル全体を微調整すると同時に,マスクプロンプトチューニングを行う手法を用いて,マスク画像中の「ブランク」領域を利用する。
実験では、マスクプロンプトチューニングはCLIPの重みを変更することなく大幅に改善され、完全に微調整されたモデルをさらに改善することができる。
特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の最先端よりも+8.5%高い。
オープンボカブラリなジェネラリストモデルが初めて、データセット固有の適応なしに2017年に教師付きスペシャリストモデルのパフォーマンスに一致した。
関連論文リスト
- MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - Region-Adaptive Transform with Segmentation Prior for Image Compression [105.17604572081177]
本稿では,地域適応型文脈情報抽出のためのクラス非依存セグメンテーションマスクを提案する。
提案モジュールであるRerea-Adaptive Transformは,マスクによって導かれる異なる領域に適応的な畳み込みを適用する。
また、Affine Layerというプラグイン・アンド・プレイモジュールを導入し、様々な領域のリッチなコンテキストを組み込む。
論文 参考訳(メタデータ) (2024-03-01T16:03:37Z) - Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文 参考訳(メタデータ) (2024-01-22T18:59:29Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Less is More: Removing Text-regions Improves CLIP Training Efficiency
and Robustness [19.77762574325687]
CLIP(Contrastive Language- Image Pre-training)モデルとその変種は、多くのアプリケーションにおいて事実上のバックボーンになりつつある。
CLIPトレーニングの効率性と堅牢性を改善するための2つの効果的なアプローチについて論じる。
私たちのフィルタベースのCLIPモデルでは、トップ1の精度は68.78%で、すべて50%未満の精度で過去のモデルより優れています。
論文 参考訳(メタデータ) (2023-05-08T23:47:07Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。