論文の概要: Open-Vocabulary Universal Image Segmentation with MaskCLIP
- arxiv url: http://arxiv.org/abs/2208.08984v2
- Date: Thu, 8 Jun 2023 06:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 20:41:11.720326
- Title: Open-Vocabulary Universal Image Segmentation with MaskCLIP
- Title(参考訳): MaskCLIPを用いたオープンボキャブラリユニバーサルイメージセグメンテーション
- Authors: Zheng Ding, Jieke Wang, Zhuowen Tu
- Abstract要約: 我々は、新しいコンピュータビジョンタスク、オープン語彙のユニバーサルイメージセグメンテーションに取り組む。
トレーニング済みのCLIPモデルを直接適用することで,まずベースライン手法を構築する。
次に, MaskCLIP Visual を用いた Transformer ベースのアプローチである MaskCLIP を開発した。
- 参考スコア(独自算出の注目度): 24.74805434602145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle an emerging computer vision task, open-vocabulary
universal image segmentation, that aims to perform semantic/instance/panoptic
segmentation (background semantic labeling + foreground instance segmentation)
for arbitrary categories of text-based descriptions in inference time. We first
build a baseline method by directly adopting pre-trained CLIP models without
finetuning or distillation. We then develop MaskCLIP, a Transformer-based
approach with a MaskCLIP Visual Encoder, which is an encoder-only module that
seamlessly integrates mask tokens with a pre-trained ViT CLIP model for
semantic/instance segmentation and class prediction. MaskCLIP learns to
efficiently and effectively utilize pre-trained partial/dense CLIP features
within the MaskCLIP Visual Encoder that avoids the time-consuming
student-teacher training process. MaskCLIP outperforms previous methods for
semantic/instance/panoptic segmentation on ADE20K and PASCAL datasets. We show
qualitative illustrations for MaskCLIP with online custom categories. Project
website: https://maskclip.github.io.
- Abstract(参考訳): 本稿では,テキストに基づく記述の任意のカテゴリに対して,意味・インテンス・パンオプティカルセグメンテーション(背景意味ラベリング+前景インスタンスセグメンテーション)を行うことを目的とした,新たなコンピュータビジョンタスクopen-vocabulary universal image segmentationに取り組む。
まず, 微調整や蒸留を行うことなく, 事前学習したCLIPモデルを直接適用することにより, ベースライン法を構築する。
MaskCLIPは,マスクトークンを,セマンティック/インスタンスセグメンテーションとクラス予測のためのトレーニング済みViT CLIPモデルとシームレスに統合するエンコーダのみのモジュールである。
MaskCLIPは、時間を要する学生-教師のトレーニングプロセスを避けるために、MaskCLIP Visual Encoder内で事前訓練された部分/ディエンスCLIP機能を有効に活用することを学ぶ。
MaskCLIPはADE20KとPASCALデータセットのセマンティック/インスタンス/パノプティクスセグメンテーションの従来の手法より優れている。
オンラインカスタムカテゴリを用いたMaskCLIPの定性的な図形を示す。
プロジェクトウェブサイト: https://maskclip.github.io
関連論文リスト
- Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment [53.235290505274676]
CLIPのような大規模視覚言語モデルはセマンティックセグメンテーションのパフォーマンスを向上させることができる。
マスクレベルの視覚言語アライメントを利用した新しいフレームワークであるMTA-CLIPを紹介する。
MTA-CLIPは最先端を達成し、ベンチマークデータセットで平均2.8%と1.3%の先行研究を上回っている。
論文 参考訳(メタデータ) (2024-07-31T14:56:42Z) - Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。
具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。
新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文 参考訳(メタデータ) (2024-06-17T03:49:47Z) - CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation [44.450243388665776]
我々はCLIP-VISと呼ばれる単純なエンコーダデコーダネットワークを提案し、CLIPをオープン語彙ビデオインスタンスセグメンテーションに適用する。
私たちのCLIP-VISは、凍結したCLIPを採用し、クラスに依存しないマスク生成、時間的トップK強調マッチング、重み付きオープン語彙分類を含む3つのモジュールを導入している。
論文 参考訳(メタデータ) (2024-03-19T05:27:04Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Learning Mask-aware CLIP Representations for Zero-Shot Segmentation [120.97144647340588]
Mask-awareProposals CLIP (IP-CLIP) は任意の数の画像とマスクの提案を同時に処理するために提案されている。
マスク認識損失と自己蒸留損失はIP-CLIPを微調整するように設計されており、CLIPが異なるマスク提案に応答することを保証している。
我々は、人気のあるゼロショットベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-30T03:27:31Z) - Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。
サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。
トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文 参考訳(メタデータ) (2023-02-23T18:58:28Z) - CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly
Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。
高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。