Fugu-MT 論文翻訳(概要): Open-Vocabulary Panoptic Segmentation with MaskCLIP

論文の概要: Open-Vocabulary Panoptic Segmentation with MaskCLIP

arxiv url: http://arxiv.org/abs/2208.08984v1
Date: Thu, 18 Aug 2022 17:55:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-19 13:52:42.585513
Title: Open-Vocabulary Panoptic Segmentation with MaskCLIP
Title（参考訳）: MaskCLIPを用いたオープンボキャブラリパノプティックセグメンテーション
Authors: Zheng Ding, Jieke Wang, Zhuowen Tu
Abstract要約: テキストベースの記述の任意のカテゴリに対して、パノプティクスのセグメンテーションを実行することを目的とした、新しいコンピュータビジョンタスクであるオープンボキャブラリパノプティカルセグメンテーションに取り組む。私たちはまず,既存のCLIPモデルの知識を活用するために,微調整も蒸留もせずにベースライン手法を構築した。そこで我々は,ViTベースのCLIPバックボーンを用いたマスククエリを用いたTransformerベースのアプローチであるMaskCLIPを開発した。
参考スコア（独自算出の注目度）: 24.74805434602145
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we tackle a new computer vision task, open-vocabulary panoptic segmentation, that aims to perform panoptic segmentation (background semantic labeling + foreground instance segmentation) for arbitrary categories of text-based descriptions. We first build a baseline method without finetuning nor distillation to utilize the knowledge in the existing CLIP model. We then develop a new method, MaskCLIP, that is a Transformer-based approach using mask queries with the ViT-based CLIP backbone to perform semantic segmentation and object instance segmentation. Here we design a Relative Mask Attention (RMA) module to account for segmentations as additional tokens to the ViT CLIP model. MaskCLIP learns to efficiently and effectively utilize pre-trained dense/local CLIP features by avoiding the time-consuming operation to crop image patches and compute feature from an external CLIP image model. We obtain encouraging results for open-vocabulary panoptic segmentation and state-of-the-art results for open-vocabulary semantic segmentation on ADE20K and PASCAL datasets. We show qualitative illustration for MaskCLIP with custom categories.
Abstract（参考訳）: 本稿では,テキスト記述の任意のカテゴリに対してパノプティブセグメンテーション(背景意味ラベリング+前景インスタンスセグメンテーション)を行うことを目的とした,新しいコンピュータビジョンタスクであるopen-vocabulary panoptic segmentationに取り組む。まず,既存のクリップモデルの知識を活用すべく,微調整や蒸留を行わずにベースライン法を構築する。次に,vitベースのクリップバックボーンを用いたマスククエリを用いたトランスフォーマティブベースのアプローチである maskclip を開発し,意味セグメンテーションとオブジェクトインスタンスのセグメンテーションを行う。ここでは、ViT CLIPモデルに追加トークンとしてセグメンテーションを考慮に入れたRMA(Relative Mask Attention)モジュールを設計する。 MaskCLIPは、外部のCLIPイメージモデルから、収穫画像パッチや計算機能に対する時間を要する操作を回避し、事前訓練された密集/局所的なCLIP機能を有効に活用することを学ぶ。 ade20kとpascalデータセット上でのオープンボカブラリー意味セグメンテーションのためのオープンボカブラリー汎視セグメンテーションと最新結果を奨励する。カスタムカテゴリを用いた MaskCLIP の定性的な図形を示す。

関連論文リスト

High-Quality Mask Tuning Matters for Open-Vocabulary Segmentation [109.19165503929992]
ここでは,CLIPのマスク分類能力を高めるために,生成されたマスクの代わりに接地トラスマスクを使用するMaskCLIP++を提案する。低コストの微調整を経て、MaskCLIP++はマルチドメインデータセットのマスク分類性能を大幅に改善した。我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文参考訳（メタデータ） (2024-12-16T05:44:45Z)
Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。 PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文参考訳（メタデータ） (2024-09-30T01:13:03Z)
MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment [53.235290505274676]
CLIPのような大規模視覚言語モデルはセマンティックセグメンテーションのパフォーマンスを向上させることができる。マスクレベルの視覚言語アライメントを利用した新しいフレームワークであるMTA-CLIPを紹介する。 MTA-CLIPは最先端を達成し、ベンチマークデータセットで平均2.8%と1.3%の先行研究を上回っている。
論文参考訳（メタデータ） (2024-07-31T14:56:42Z)
Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文参考訳（メタデータ） (2024-06-17T03:49:47Z)
CLIP-VIS: Adapting CLIP for Open-Vocabulary Video Instance Segmentation [44.450243388665776]
我々はCLIP-VISと呼ばれる単純なエンコーダデコーダネットワークを提案し、CLIPをオープン語彙ビデオインスタンスセグメンテーションに適用する。私たちのCLIP-VISは、凍結したCLIPを採用し、クラスに依存しないマスク生成、時間的トップK強調マッチング、重み付きオープン語彙分類を含む3つのモジュールを導入している。
論文参考訳（メタデータ） (2024-03-19T05:27:04Z)
PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:03Z)
Learning Mask-aware CLIP Representations for Zero-Shot Segmentation [120.97144647340588]
Mask-awareProposals CLIP (IP-CLIP) は任意の数の画像とマスクの提案を同時に処理するために提案されている。マスク認識損失と自己蒸留損失はIP-CLIPを微調整するように設計されており、CLIPが異なるマスク提案に応答することを保証している。我々は、人気のあるゼロショットベンチマークで広範な実験を行う。
論文参考訳（メタデータ） (2023-09-30T03:27:31Z)
Side Adapter Network for Open-Vocabulary Semantic Segmentation [69.18441687386733]
本稿では,Side Adapter Network (SAN) という,事前学習された視覚言語モデルを用いたオープン語彙セマンティックセマンティックセマンティックセマンティクスのための新しいフレームワークを提案する。サイドネットワークは凍結したCLIPモデルにアタッチされ、ひとつはマスクの提案を予測し、もうひとつは注意バイアスを予測する。トレーニング可能なパラメータは最大で18倍,推論速度は19倍に向上した。
論文参考訳（メタデータ） (2023-02-23T18:58:28Z)
CLIP is Also an Efficient Segmenter: A Text-Driven Approach for Weakly Supervised Semantic Segmentation [19.208559353954833]
本稿では,コントラスト言語-画像事前学習モデル(CLIP)が,画像レベルラベルのみを用いて異なるカテゴリをローカライズする可能性について検討する。高品質なセグメンテーションマスクをCLIPから効率的に生成するために,CLIP-ESと呼ばれる新しいWSSSフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T06:23:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。