論文の概要: Towards Universal Vision-language Omni-supervised Segmentation
- arxiv url: http://arxiv.org/abs/2303.06547v1
- Date: Sun, 12 Mar 2023 02:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:24:08.496605
- Title: Towards Universal Vision-language Omni-supervised Segmentation
- Title(参考訳): ユニバーサルビジョン言語オムニ教師付きセグメンテーションに向けて
- Authors: Bowen Dong, Jiaxi Gu, Jianhua Han, Hang Xu, Wangmeng Zuo
- Abstract要約: オープンワールドセグメンテーションタスクを提案分類として扱うために,VLOSS(Vision-Language Omni-Supervised)を提案する。
我々は、オムニ教師付きデータ(例えば、汎視的セグメンテーションデータ、オブジェクト検出データ、画像とテキストのペアデータ)をトレーニングに活用し、オープンワールドセグメンテーション能力を強化する。
Swin-Tiny を用いた VLOSS はパラメータが少ないため,LVIS v1 データセットのマスク AP では MaskCLIP を 2% 上回っている。
- 参考スコア(独自算出の注目度): 72.31277932442988
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing open-world universal segmentation approaches usually leverage CLIP
and pre-computed proposal masks to treat open-world segmentation tasks as
proposal classification. However, 1) these works cannot handle universal
segmentation in an end-to-end manner, and 2) the limited scale of panoptic
datasets restricts the open-world segmentation ability on things classes. In
this paper, we present Vision-Language Omni-Supervised Segmentation (VLOSS).
VLOSS starts from a Mask2Former universal segmentation framework with CLIP text
encoder. To improve the open-world segmentation ability, we leverage
omni-supervised data (i.e., panoptic segmentation data, object detection data,
and image-text pairs data) into training, thus enriching the open-world
segmentation ability and achieving better segmentation accuracy. To better
improve the training efficiency and fully release the power of omni-supervised
data, we propose several advanced techniques, i.e., FPN-style encoder,
switchable training technique, and positive classification loss. Benefiting
from the end-to-end training manner with proposed techniques, VLOSS can be
applied to various open-world segmentation tasks without further adaptation.
Experimental results on different open-world panoptic and instance segmentation
benchmarks demonstrate the effectiveness of VLOSS. Notably, with fewer
parameters, our VLOSS with Swin-Tiny backbone surpasses MaskCLIP by ~2% in
terms of mask AP on LVIS v1 dataset.
- Abstract(参考訳): 既存のオープンワールドのユニバーサルセグメンテーションアプローチは、通常、CLIPと事前計算された提案マスクを利用して、オープンワールドセグメンテーションタスクを提案分類として扱う。
しかし、
1)これらの作品は、エンドツーエンドで普遍的なセグメンテーションを処理できない。
2) panopticデータセットの限られたスケールは、 thingsクラスのオープンワールドセグメンテーション能力を制限する。
本稿では、VLOSS(Vision-Language Omni-Supervised Segmentation)を提案する。
VLOSSは、CLIPテキストエンコーダを備えたMask2Formerユニバーサルセグメンテーションフレームワークから始まる。
オープンワールドセグメンテーション能力を向上させるために,全教師データ(panoptic segmentation data,object detection data,image-text pairs data)をトレーニングに活用し,オープンワールドセグメンテーション能力を強化し,セグメンテーション精度を向上させる。
トレーニング効率の向上と全教師ありデータのパワーの完全解放のために,fpn型エンコーダ,スイッチ可能なトレーニング技術,正の分類損失など,いくつかの高度な技術を提案する。
VLOSSは、提案手法によるエンドツーエンドの訓練方法から、様々なオープンワールドセグメンテーションタスクに適用できるが、さらなる適応はできない。
異なるオープンワールドパノプティクスおよびインスタンスセグメンテーションベンチマークの実験結果から、VLOSSの有効性が示された。
特にパラメータが少ないため、Swin-Tinyのバックボーンを持つVLOSSは、LVIS v1データセットのマスクAPでMaskCLIPを約2%上回る。
関連論文リスト
- A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - OpenVIS: Open-vocabulary Video Instance Segmentation [24.860711503327323]
OpenVIS(Open-vocabulary Video Instance)は、ビデオ内の任意のオブジェクトカテゴリを検出し、セグメンテーションし、追跡する。
InstFormerは、限られたカテゴリデータによる軽量な微調整により、強力なオープン語彙機能を実現するフレームワークである。
論文 参考訳(メタデータ) (2023-05-26T11:25:59Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Open-world Instance Segmentation: Top-down Learning with Bottom-up Supervision [83.57156368908836]
ボトムアップとトップダウンオープンワールド(UDOS)と呼ばれるオープンワールドのインスタンスセグメンテーションのための新しいアプローチを提案する。
UDOSはまず、ボトムアップセグメンテーションから弱い監督で訓練されたトップダウンネットワークを使用して、オブジェクトの一部を予測する。
UDOSは、トップダウンアーキテクチャのスピードと効率と、ボトムアップの監視からカテゴリを見落とせる能力の両方を享受しています。
論文 参考訳(メタデータ) (2023-03-09T18:55:03Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。