論文の概要: TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2112.01515v1
- Date: Thu, 2 Dec 2021 18:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 14:57:23.946798
- Title: TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic
Segmentation
- Title(参考訳): transfgu: きめ細かな教師なしセグメンテーションのためのトップダウンアプローチ
- Authors: Zhaoyuan Yin, Pichao Wang, Fan Wang, Xianzhe Xu, Hanling Zhang, Hao
Li, Rong Jin
- Abstract要約: 教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。
本稿では, 非常に複雑なシナリオにおける細粒度セグメンテーションのための, トップダウンの教師なしセグメンテーションフレームワークを提案する。
我々の結果は、トップダウンの教師なしセグメンテーションが、オブジェクト中心とシーン中心の両方のデータセットに対して堅牢であることを示している。
- 参考スコア(独自算出の注目度): 44.75300205362518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised semantic segmentation aims to obtain high-level semantic
representation on low-level visual features without manual annotations. Most
existing methods are bottom-up approaches that try to group pixels into regions
based on their visual cues or certain predefined rules. As a result, it is
difficult for these bottom-up approaches to generate fine-grained semantic
segmentation when coming to complicated scenes with multiple objects and some
objects sharing similar visual appearance. In contrast, we propose the first
top-down unsupervised semantic segmentation framework for fine-grained
segmentation in extremely complicated scenarios. Specifically, we first obtain
rich high-level structured semantic concept information from large-scale vision
data in a self-supervised learning manner, and use such information as a prior
to discover potential semantic categories presented in target datasets.
Secondly, the discovered high-level semantic categories are mapped to low-level
pixel features by calculating the class activate map (CAM) with respect to
certain discovered semantic representation. Lastly, the obtained CAMs serve as
pseudo labels to train the segmentation module and produce final semantic
segmentation. Experimental results on multiple semantic segmentation benchmarks
show that our top-down unsupervised segmentation is robust to both
object-centric and scene-centric datasets under different semantic granularity
levels, and outperforms all the current state-of-the-art bottom-up methods. Our
code is available at \url{https://github.com/damo-cv/TransFGU}.
- Abstract(参考訳): 教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。
既存の手法のほとんどはボトムアップのアプローチで、ピクセルを視覚的な手がかりや事前定義されたルールに基づいて領域にグループ化しようとする。
その結果、複数のオブジェクトと類似した視覚的な外観を持ついくつかのオブジェクトが複雑なシーンに現れると、これらのボトムアップアプローチがきめ細かなセマンティックセグメンテーションを生成することは困難である。
対照的に,超複雑なシナリオにおける細粒度のセグメンテーションのための,最初のトップダウン非教師なしセグメンテーションフレームワークを提案する。
具体的には,まず,大規模視覚データから自己教師あり学習方法でリッチな高レベル構造化意味概念情報を取得し,それ以前の情報を用いて対象データセットに提示される潜在的な意味カテゴリーを探索する。
第二に、発見された高レベルセマンティックカテゴリは、ある発見されたセマンティック表現に関してクラスアクティベーションマップ(CAM)を計算することにより、低レベルのピクセル特徴にマッピングされる。
最後に、得られたCAMは擬似ラベルとして機能し、セグメンテーションモジュールをトレーニングし、最終的なセグメンテーションを生成する。
複数のセマンティックセグメンテーションベンチマークの実験結果から、トップダウンの教師なしセグメンテーションは、異なるセマンティックセグメンテーションレベルのオブジェクト中心とシーン中心のデータセットの両方に対して堅牢であり、現在のボトムアップ手法よりも優れています。
私たちのコードは \url{https://github.com/damo-cv/TransFGU} で利用可能です。
関連論文リスト
- SPIN: Hierarchical Segmentation with Subpart Granularity in Natural Images [17.98848062686217]
自然画像のサブパートアノテーションを用いた最初の階層的セマンティックセマンティックセマンティクスデータセットを提案する。
また,アルゴリズムが階層レベルの空間的関係と意味的関係をいかにうまく捉えるかを評価するために,新しい評価指標を2つ導入した。
論文 参考訳(メタデータ) (2024-07-12T21:08:00Z) - A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - Learning Semantic Segmentation with Query Points Supervision on Aerial Images [57.09251327650334]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文 参考訳(メタデータ) (2023-09-11T14:32:04Z) - Hierarchical Open-vocabulary Universal Image Segmentation [48.008887320870244]
Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。
HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
論文 参考訳(メタデータ) (2023-07-03T06:02:15Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。