論文の概要: Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2206.06363v1
- Date: Mon, 13 Jun 2022 17:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 14:23:46.739454
- Title: Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation
- Title(参考訳): 教師なし意味セグメンテーションのためのトランスフォーマーを用いた物体マスクの発見
- Authors: Wouter Van Gansbeke, Simon Vandenhende, Luc Van Gool
- Abstract要約: MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
- 参考スコア(独自算出の注目度): 75.00151934315967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of unsupervised semantic segmentation aims to cluster pixels into
semantically meaningful groups. Specifically, pixels assigned to the same
cluster should share high-level semantic properties like their object or part
category. This paper presents MaskDistill: a novel framework for unsupervised
semantic segmentation based on three key ideas. First, we advocate a
data-driven strategy to generate object masks that serve as a pixel grouping
prior for semantic segmentation. This approach omits handcrafted priors, which
are often designed for specific scene compositions and limit the applicability
of competing frameworks. Second, MaskDistill clusters the object masks to
obtain pseudo-ground-truth for training an initial object segmentation model.
Third, we leverage this model to filter out low-quality object masks. This
strategy mitigates the noise in our pixel grouping prior and results in a clean
collection of masks which we use to train a final segmentation model. By
combining these components, we can considerably outperform previous works for
unsupervised semantic segmentation on PASCAL (+11% mIoU) and COCO (+4% mask
AP50). Interestingly, as opposed to existing approaches, our framework does not
latch onto low-level image cues and is not limited to object-centric datasets.
The code and models will be made available.
- Abstract(参考訳): 教師なしセマンティックセグメンテーションの課題は、ピクセルを意味のあるグループにクラスタ化することである。
具体的には、同じクラスタに割り当てられたピクセルは、オブジェクトや部分カテゴリのようなハイレベルなセマンティクス特性を共有する必要がある。
本稿では,3つのキーアイデアに基づいた教師なしセマンティックセグメンテーションのための新しいフレームワークMaskDistillを提案する。
まず、セマンティックセグメンテーションの前にピクセルグループとして機能するオブジェクトマスクを生成するためのデータ駆動戦略を提案する。
このアプローチは、特定のシーン構成のためにしばしば設計され、競合するフレームワークの適用性を制限する手作りの先行を省略する。
第2に、MaskDistillはオブジェクトマスクをクラスタ化して、初期オブジェクトセグメンテーションモデルをトレーニングするための擬似グラウンドトルースを得る。
第3に、このモデルを利用して低品質のオブジェクトマスクをフィルタします。
この戦略は,画素グループ化前のノイズを軽減し,最終的なセグメンテーションモデルをトレーニングするために使用するマスクのクリーンコレクションを実現する。
これらのコンポーネントを組み合わせることで、PASCAL(+11% mIoU)とCOCO(+4% mask AP50)の教師なしセマンティックセマンティックセグメンテーションにおいて、従来よりも大幅に優れています。
興味深いことに、既存のアプローチとは対照的に、我々のフレームワークは低レベルの画像キューにラッチせず、オブジェクト中心のデータセットに限定されない。
コードとモデルは利用可能になる。
関連論文リスト
- Boosting Unsupervised Semantic Segmentation with Principal Mask Proposals [15.258631373740686]
教師なしセマンティックセグメンテーションは、画像コーパス内のグローバルセマンティックカテゴリをアノテーションなしで識別することで、画像を自動的に意味のある領域に分割することを目的としている。
そこで,PriMaP - 主マスク提案 - 特徴表現に基づいてイメージを意味的に意味のあるマスクに分解する。
これにより、予測最大化アルゴリズムであるPriMaPs-EMを用いて、クラスプロトタイプをPriMaPsに適合させることで、教師なしセマンティックセマンティックセマンティクスを実現することができる。
論文 参考訳(メタデータ) (2024-04-25T17:58:09Z) - Learning Open-vocabulary Semantic Segmentation Models From Natural
Language Supervision [49.905448429974804]
オープン語彙セマンティックセマンティックセグメンテーション(OVS)は,事前に定義された閉集合のカテゴリではなく,任意のクラスのオブジェクトをセグメンテーションすることを目的としている。
OVSegmentorと呼ばれるOVSのトランスフォーマーベースモデルを提案する。
プレトレーニングには3%のデータ(4M vs 134M)のみを用いることで,最先端手法よりも優れたセグメンテーション結果が得られる。
論文 参考訳(メタデータ) (2023-01-22T13:10:05Z) - Few-shot semantic segmentation via mask aggregation [5.886986014593717]
セマンティックセグメンテーションは、ラベル付きデータが少ない新しいクラスを認識することを目的としている。
従来の研究では、これをピクセル単位の分類問題と見なしていた。
この問題に対処するためのマスクベースの分類手法を提案する。
論文 参考訳(メタデータ) (2022-02-15T07:13:09Z) - Scaling up instance annotation via label propagation [69.8001043244044]
本稿では,オブジェクトセグメンテーションマスクを用いた大規模データセット構築のための高効率アノテーション手法を提案する。
セグメンテーションモデルによるマスク予測に階層的クラスタリングを用いることにより,これらの類似性を生かした。
総アノテーション時間はたった290時間である100万個のオブジェクトセグメンテーションマスクが得られた。
論文 参考訳(メタデータ) (2021-10-05T18:29:34Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z) - SOLO: A Simple Framework for Instance Segmentation [84.00519148562606]
インスタンスカテゴリ"は、インスタンスの場所に応じて、インスタンス内の各ピクセルにカテゴリを割り当てる。
SOLO"は、強力なパフォーマンスを備えたインスタンスセグメンテーションのための、シンプルで、直接的で、高速なフレームワークです。
提案手法は, 高速化と精度の両面から, 実例分割の最先端結果を実現する。
論文 参考訳(メタデータ) (2021-06-30T09:56:54Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。