論文の概要: A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2311.18628v2
- Date: Fri, 29 Dec 2023 04:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 01:01:27.436119
- Title: A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation
- Title(参考訳): 教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワーク
- Authors: Yau Shing Jonathan Cheung, Xi Chen, Lihe Yang, Hengshuang Zhao
- Abstract要約: 教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
- 参考スコア(独自算出の注目度): 28.907274978550493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised semantic segmentation aims to categorize each pixel in an image
into a corresponding class without the use of annotated data. It is a widely
researched area as obtaining labeled datasets is expensive. While previous
works in the field have demonstrated a gradual improvement in model accuracy,
most required neural network training. This made segmentation equally
expensive, especially when dealing with large-scale datasets. We thus propose a
lightweight clustering framework for unsupervised semantic segmentation. We
discovered that attention features of the self-supervised Vision Transformer
exhibit strong foreground-background differentiability. Therefore, clustering
can be employed to effectively separate foreground and background image
patches. In our framework, we first perform multilevel clustering across the
Dataset-level, Category-level, and Image-level, and maintain consistency
throughout. Then, the binary patch-level pseudo-masks extracted are upsampled,
refined and finally labeled. Furthermore, we provide a comprehensive analysis
of the self-supervised Vision Transformer features and a detailed comparison
between DINO and DINOv2 to justify our claims. Our framework demonstrates great
promise in unsupervised semantic segmentation and achieves state-of-the-art
results on PASCAL VOC and MS COCO datasets.
- Abstract(参考訳): 教師なしセマンティクスセグメンテーションは、注釈付きデータを使わずに画像の各ピクセルを対応するクラスに分類することを目的としている。
ラベル付きデータセットの取得は高価であるため、広く研究されている分野である。
この分野でのこれまでの研究は、モデルの正確性が徐々に向上することを示したが、ほとんどのニューラルネットワークトレーニングは必要だった。
これによりセグメンテーションは、特に大規模なデータセットを扱う場合、等しく高価になった。
本論文では,教師なしセマンティクスセグメンテーションのための軽量クラスタリングフレームワークを提案する。
自己監督型視覚変換器の注意特徴は,前景と背景の差異が強いことが判明した。
したがって、前景と背景画像のパッチを効果的に分離するためにクラスタリングを利用することができる。
当社のフレームワークでは、まず、データセットレベル、カテゴリレベル、イメージレベルの複数レベルのクラスタリングを行い、一貫性を維持します。
そして、抽出されたバイナリパッチレベルの擬似マスクをアップサンプリングし、洗練し、最終的にラベル付けする。
さらに、自己監督型ビジョントランスフォーマーの特徴を包括的に分析し、DINOとDINOv2の詳細な比較を行い、我々の主張を正当化する。
我々のフレームワークは、教師なしセマンティックセグメンテーションにおいて大きな可能性を証明し、PASCAL VOCおよびMS COCOデータセットの最先端結果を達成する。
関連論文リスト
- HGFormer: Hierarchical Grouping Transformer for Domain Generalized
Semantic Segmentation [113.6560373226501]
本研究は領域一般化設定の下で意味的セグメンテーションを研究する。
本稿では,階層型グループ化変換器(HGFormer)を提案する。
実験により、HGFormerはピクセルごとの分類法やフラットグルーピング変換器よりも、より堅牢なセマンティックセグメンテーション結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-22T13:33:41Z) - ISLE: A Framework for Image Level Semantic Segmentation Ensemble [5.137284292672375]
従来のセマンティックセグメンテーションネットワークは、最先端の予測品質に到達するために、大量のピクセル単位のアノテートラベルを必要とする。
クラスレベルで異なるセマンティックセグメンテーション手法のセットに「擬似ラベル」のアンサンブルを用いるISLEを提案する。
私たちはISLEの個々のコンポーネントよりも2.4%改善しています。
論文 参考訳(メタデータ) (2023-03-14T13:36:36Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic
Segmentation [44.75300205362518]
教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。
本稿では, 非常に複雑なシナリオにおける細粒度セグメンテーションのための, トップダウンの教師なしセグメンテーションフレームワークを提案する。
我々の結果は、トップダウンの教師なしセグメンテーションが、オブジェクト中心とシーン中心の両方のデータセットに対して堅牢であることを示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:03Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Unsupervised Image Classification for Deep Representation Learning [42.09716669386924]
埋め込みクラスタリングを使わずに、教師なしのイメージ分類フレームワークを提案する。
提案手法の有効性を証明するために,ImageNetデータセットの実験を行った。
論文 参考訳(メタデータ) (2020-06-20T02:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。