論文の概要: Learning Mask-aware CLIP Representations for Zero-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2310.00240v1
- Date: Sat, 30 Sep 2023 03:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 05:41:00.535775
- Title: Learning Mask-aware CLIP Representations for Zero-Shot Segmentation
- Title(参考訳): ゼロショットセグメンテーションのためのマスク対応CLIP表現の学習
- Authors: Siyu Jiao, Yunchao Wei, Yaowei Wang, Yao Zhao, Humphrey Shi
- Abstract要約: Mask-awareProposals CLIP (IP-CLIP) は任意の数の画像とマスクの提案を同時に処理するために提案されている。
マスク認識損失と自己蒸留損失はIP-CLIPを微調整するように設計されており、CLIPが異なるマスク提案に応答することを保証している。
我々は、人気のあるゼロショットベンチマークで広範な実験を行う。
- 参考スコア(独自算出の注目度): 120.97144647340588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, pre-trained vision-language models have been increasingly used to
tackle the challenging zero-shot segmentation task. Typical solutions follow
the paradigm of first generating mask proposals and then adopting CLIP to
classify them. To maintain the CLIP's zero-shot transferability, previous
practices favour to freeze CLIP during training. However, in the paper, we
reveal that CLIP is insensitive to different mask proposals and tends to
produce similar predictions for various mask proposals of the same image. This
insensitivity results in numerous false positives when classifying mask
proposals. This issue mainly relates to the fact that CLIP is trained with
image-level supervision. To alleviate this issue, we propose a simple yet
effective method, named Mask-aware Fine-tuning (MAFT). Specifically,
Image-Proposals CLIP Encoder (IP-CLIP Encoder) is proposed to handle arbitrary
numbers of image and mask proposals simultaneously. Then, mask-aware loss and
self-distillation loss are designed to fine-tune IP-CLIP Encoder, ensuring CLIP
is responsive to different mask proposals while not sacrificing
transferability. In this way, mask-aware representations can be easily learned
to make the true positives stand out. Notably, our solution can seamlessly plug
into most existing methods without introducing any new parameters during the
fine-tuning process. We conduct extensive experiments on the popular zero-shot
benchmarks. With MAFT, the performance of the state-of-the-art methods is
promoted by a large margin: 50.4% (+ 8.2%) on COCO, 81.8% (+ 3.2%) on
Pascal-VOC, and 8.7% (+4.3%) on ADE20K in terms of mIoU for unseen classes. The
code is available at https://github.com/jiaosiyu1999/MAFT.git.
- Abstract(参考訳): 近年,ゼロショットセグメンテーション課題に取り組むために,事前学習された視覚言語モデルがますます利用されている。
典型的なソリューションは、最初にマスクの提案を生成し、それらを分類するためにCLIPを採用するパラダイムに従っている。
CLIPのゼロショット転送性を維持するために、以前のプラクティスはトレーニング中にCLIPを凍結することを好んでいる。
しかし,本論文では,CLIPは異なるマスク提案に敏感であり,同一画像の様々なマスク提案に対して同様の予測を行う傾向があることを明らかにした。
この感度はマスクの提案を分類する際に多くの偽陽性をもたらす。
この問題は主に、CLIPがイメージレベルの監視でトレーニングされているという事実に関連している。
この問題を軽減するために,Mask-aware Fine-tuning (MAFT) というシンプルな手法を提案する。
具体的には、画像プロポーサルCLIPエンコーダ(IP-CLIPエンコーダ)を提案し、任意の数の画像とマスクの提案を同時に処理する。
次に、マスク認識損失と自己蒸留損失を設計し、IP-CLIPエンコーダを微調整し、CLIPが転送性を犠牲にすることなく異なるマスク提案に応答することを保証する。
このように、マスク対応表現は、真の正を際立たせるために容易に学習することができる。
特に、我々のソリューションは、微調整プロセス中に新しいパラメータを導入することなく、ほとんどの既存のメソッドにシームレスにプラグインできます。
我々は、人気のあるゼロショットベンチマークで広範な実験を行う。
MAFTでは、最先端の手法のパフォーマンスはCOCOで50.4%(+8.2%)、Pascal-VOCで81.8%(+3.2%)、ADE20KでmIoUで8.7%(+4.3%)という大きなマージンで促進されている。
コードはhttps://github.com/jiaosiyu1999/maft.gitで入手できる。
関連論文リスト
- Segment, Select, Correct: A Framework for Weakly-Supervised Referring Segmentation [63.13635858586001]
参照画像(RIS)は、自然言語文を通して画像中の物体を識別する問題である。
本稿では、RISを3つのステップに分解することで、RISに対処する弱い教師付きフレームワークを提案する。
最初の2ステップ(ゼロショットセグメントとセレクト)のみを使用して、他のゼロショットベースラインを最大16.5%上回る。
論文 参考訳(メタデータ) (2023-10-20T13:20:17Z) - Class-Incremental Exemplar Compression for Class-Incremental Learning [90.93462714376078]
CIM(class-incremental masking)と呼ばれる適応マスク生成モデルを提案する。
我々は,Food-101, ImageNet-100, ImageNet-1000などの高分解能CILベンチマーク実験を行った。
CIMによる圧縮例を用いることで,10Phase ImageNet-1000のFOSTERよりも4.8ポイント高いCIL精度が得られることを示す。
論文 参考訳(メタデータ) (2023-03-24T14:51:20Z) - MP-Former: Mask-Piloted Transformer for Image Segmentation [16.620469868310288]
Mask2Formerはデコーダ層間の一貫性のないマスク予測に悩まされている。
本手法では,マスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスのマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスマスをマスマスマスマストした。
論文 参考訳(メタデータ) (2023-03-13T17:57:59Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - Attentive Mask CLIP [48.206857783966996]
テキスト記述に高い意味的相関を持つトークンを保持するCLIPトレーニングのための注意的トークン除去手法を提案する。
提案手法は、ImageNet-1Kゼロショット分類で43.9%の精度、62.7/42.1ドルの精度、38.0/23.2ドルのI2T/T2I検索精度を実現している。
論文 参考訳(メタデータ) (2022-12-16T18:59:12Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z) - ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation [35.60888272729273]
近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。
このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。
本稿では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルかつ効率的なワンステージソリューションを提案する。
論文 参考訳(メタデータ) (2022-12-07T12:05:00Z) - Open-Vocabulary Universal Image Segmentation with MaskCLIP [24.74805434602145]
我々は、新しいコンピュータビジョンタスク、オープン語彙のユニバーサルイメージセグメンテーションに取り組む。
トレーニング済みのCLIPモデルを直接適用することで,まずベースライン手法を構築する。
次に, MaskCLIP Visual を用いた Transformer ベースのアプローチである MaskCLIP を開発した。
論文 参考訳(メタデータ) (2022-08-18T17:55:37Z) - BoxInst: High-Performance Instance Segmentation with Box Annotations [102.10713189544947]
本稿では,トレーニング用バウンディングボックスアノテーションのみを用いて,マスクレベルのインスタンスセグメンテーションを実現する高性能な手法を提案する。
私たちの中核となる考え方は、セグメンテーションネットワーク自体を変更することなく、インスタンスセグメンテーションにおける学習マスクの喪失を活用することです。
論文 参考訳(メタデータ) (2020-12-03T22:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。