論文の概要: Open-Vocabulary Panoptic Segmentation with MaskCLIP
- arxiv url: http://arxiv.org/abs/2208.08984v1
- Date: Thu, 18 Aug 2022 17:55:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 13:52:42.585513
- Title: Open-Vocabulary Panoptic Segmentation with MaskCLIP
- Title(参考訳): MaskCLIPを用いたオープンボキャブラリパノプティックセグメンテーション
- Authors: Zheng Ding, Jieke Wang, Zhuowen Tu
- Abstract要約: テキストベースの記述の任意のカテゴリに対して、パノプティクスのセグメンテーションを実行することを目的とした、新しいコンピュータビジョンタスクであるオープンボキャブラリパノプティカルセグメンテーションに取り組む。
私たちはまず,既存のCLIPモデルの知識を活用するために,微調整も蒸留もせずにベースライン手法を構築した。
そこで我々は,ViTベースのCLIPバックボーンを用いたマスククエリを用いたTransformerベースのアプローチであるMaskCLIPを開発した。
- 参考スコア(独自算出の注目度): 24.74805434602145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle a new computer vision task, open-vocabulary panoptic
segmentation, that aims to perform panoptic segmentation (background semantic
labeling + foreground instance segmentation) for arbitrary categories of
text-based descriptions. We first build a baseline method without finetuning
nor distillation to utilize the knowledge in the existing CLIP model. We then
develop a new method, MaskCLIP, that is a Transformer-based approach using mask
queries with the ViT-based CLIP backbone to perform semantic segmentation and
object instance segmentation. Here we design a Relative Mask Attention (RMA)
module to account for segmentations as additional tokens to the ViT CLIP model.
MaskCLIP learns to efficiently and effectively utilize pre-trained dense/local
CLIP features by avoiding the time-consuming operation to crop image patches
and compute feature from an external CLIP image model. We obtain encouraging
results for open-vocabulary panoptic segmentation and state-of-the-art results
for open-vocabulary semantic segmentation on ADE20K and PASCAL datasets. We
show qualitative illustration for MaskCLIP with custom categories.
- Abstract(参考訳): 本稿では,テキスト記述の任意のカテゴリに対してパノプティブセグメンテーション(背景意味ラベリング+前景インスタンスセグメンテーション)を行うことを目的とした,新しいコンピュータビジョンタスクであるopen-vocabulary panoptic segmentationに取り組む。
まず,既存のクリップモデルの知識を活用すべく,微調整や蒸留を行わずにベースライン法を構築する。
次に,vitベースのクリップバックボーンを用いたマスククエリを用いたトランスフォーマティブベースのアプローチである maskclip を開発し,意味セグメンテーションとオブジェクトインスタンスのセグメンテーションを行う。
ここでは、ViT CLIPモデルに追加トークンとしてセグメンテーションを考慮に入れたRMA(Relative Mask Attention)モジュールを設計する。
MaskCLIPは、外部のCLIPイメージモデルから、収穫画像パッチや計算機能に対する時間を要する操作を回避し、事前訓練された密集/局所的なCLIP機能を有効に活用することを学ぶ。
ade20kとpascalデータセット上でのオープンボカブラリー意味セグメンテーションのためのオープンボカブラリー汎視セグメンテーションと最新結果を奨励する。
カスタムカテゴリを用いた MaskCLIP の定性的な図形を示す。
関連論文リスト
- PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Learning Mask-aware CLIP Representations for Zero-Shot Segmentation [120.97144647340588]
Mask-awareProposals CLIP (IP-CLIP) は任意の数の画像とマスクの提案を同時に処理するために提案されている。
マスク認識損失と自己蒸留損失はIP-CLIPを微調整するように設計されており、CLIPが異なるマスク提案に応答することを保証している。
我々は、人気のあるゼロショットベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-30T03:27:31Z) - Visual and Textual Prior Guided Mask Assemble for Few-Shot Segmentation
and Beyond [0.0]
視覚的およびテキスト的事前案内マスク集合ネットワーク(PGMA-Net)を提案する。
偏見を緩和するためにクラス非依存のマスクアセンブリープロセスを採用し、様々なタスクをアフィニティを通じて事前を組み立てることで統一的な方法で定式化する。
mIoUは$textPASCAL-5i$で7.6ドル、$textCOCO-20i$で59.4ドルである。
論文 参考訳(メタデータ) (2023-08-15T02:46:49Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision [49.905448429974804]
オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。
OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。
プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
論文 参考訳(メタデータ) (2023-01-22T13:10:05Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z) - Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP [45.81698881151867]
Open-vocabulary semantic segmentationは、トレーニング中に見られなかったかもしれないテキスト記述に従って、イメージをセマンティック領域に分割することを目的としている。
最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、次にCLIPなどの事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。
マスクされた画像領域とその対応するテキスト記述の集合上でCLIPを微調整する。
特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の状態より+8.5%高い。
論文 参考訳(メタデータ) (2022-10-09T02:57:32Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。