論文の概要: Self-supervised Semantic Segmentation Grounded in Visual Concepts
- arxiv url: http://arxiv.org/abs/2203.13868v1
- Date: Fri, 25 Mar 2022 19:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-03 05:10:25.232703
- Title: Self-supervised Semantic Segmentation Grounded in Visual Concepts
- Title(参考訳): 視覚概念に基づく自己教師付き意味セグメンテーション
- Authors: Wenbin He, William Surmeier, Arvind Kumar Shekar, Liang Gou, Liu Ren
- Abstract要約: 教師なしセマンティックセグメンテーションでは、人間のアノテーションなしで各ピクセルにラベルを割り当てる必要がある。
画像から抽出した視覚概念を用いてセマンティックセグメンテーションのための自己教師付き画素表現学習法を提案する。
提案手法は,近年の教師なしセマンティックセグメンテーション手法よりも一貫した,実質的な改善が得られた。
- 参考スコア(独自算出の注目度): 14.919447505763875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised semantic segmentation requires assigning a label to every pixel
without any human annotations. Despite recent advances in self-supervised
representation learning for individual images, unsupervised semantic
segmentation with pixel-level representations is still a challenging task and
remains underexplored. In this work, we propose a self-supervised pixel
representation learning method for semantic segmentation by using visual
concepts (i.e., groups of pixels with semantic meanings, such as parts,
objects, and scenes) extracted from images. To guide self-supervised learning,
we leverage three types of relationships between pixels and concepts, including
the relationships between pixels and local concepts, local and global concepts,
as well as the co-occurrence of concepts. We evaluate the learned pixel
embeddings and visual concepts on three datasets, including PASCAL VOC 2012,
COCO 2017, and DAVIS 2017. Our results show that the proposed method gains
consistent and substantial improvements over recent unsupervised semantic
segmentation approaches, and also demonstrate that visual concepts can reveal
insights into image datasets.
- Abstract(参考訳): 教師なしセマンティックセグメンテーションでは、人間のアノテーションなしで各ピクセルにラベルを割り当てる必要がある。
個々の画像に対する自己教師あり表現学習の最近の進歩にもかかわらず、画素レベル表現を用いた教師なし意味セグメンテーションは依然として課題であり、未検討のままである。
本研究では,画像から抽出した視覚概念(例えば,意味意味を持つ画素群,例えば,部分,オブジェクト,シーンなど)を用いて,意味セグメンテーションのための自己教師あり画素表現学習手法を提案する。
自己指導型学習の指導には, 画素と局所概念の関係, 局所概念とグローバル概念, 概念の共起など, 画素と概念の関係の3つのタイプを利用する。
PASCAL VOC 2012 COCO 2017, DAVIS 2017を含む3つのデータセット上で, 学習した画素埋め込みと視覚概念を評価した。
その結果,最近の教師なしセマンティクスセグメンテーションアプローチに比べて,提案手法は一貫性と大幅な改善が得られ,視覚的概念が画像データセットへの洞察を明らかにすることができることが示された。
関連論文リスト
- Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - CLIP-S$^4$: Language-Guided Self-Supervised Semantic Segmentation [15.29479338808226]
自己教師付き画素表現学習と視覚言語モデルを利用して,様々なセマンティックセグメンテーションタスクを実現するCLIP-S$4を提示する。
当社のアプローチでは,4つの一般的なベンチマークに対して,一貫した,実質的なパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-05-01T19:01:01Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Self-Supervised Learning of Object Parts for Semantic Segmentation [7.99536002595393]
我々は、オブジェクト部品の自己教師型学習がこの問題の解決策であると主張している。
本手法は3つのセマンティックセグメンテーションベンチマークの最先端を17%-3%超える。
論文 参考訳(メタデータ) (2022-04-27T17:55:17Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。