論文の概要: Self-Supervised Visual Representation Learning with Semantic Grouping
- arxiv url: http://arxiv.org/abs/2205.15288v1
- Date: Mon, 30 May 2022 17:50:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:40:52.428192
- Title: Self-Supervised Visual Representation Learning with Semantic Grouping
- Title(参考訳): セマンティックグルーピングによる自己監督型視覚表現学習
- Authors: Xin Wen, Bingchen Zhao, Anlin Zheng, Xiangyu Zhang, Xiaojuan Qi
- Abstract要約: 我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
- 参考スコア(独自算出の注目度): 50.14703605659837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle the problem of learning visual representations from
unlabeled scene-centric data. Existing works have demonstrated the potential of
utilizing the underlying complex structure within scene-centric data; still,
they commonly rely on hand-crafted objectness priors or specialized pretext
tasks to build a learning framework, which may harm generalizability. Instead,
we propose contrastive learning from data-driven semantic slots, namely
SlotCon, for joint semantic grouping and representation learning. The semantic
grouping is performed by assigning pixels to a set of learnable prototypes,
which can adapt to each sample by attentive pooling over the feature and form
new slots. Based on the learned data-dependent slots, a contrastive objective
is employed for representation learning, which enhances the discriminability of
features, and conversely facilitates grouping semantically coherent pixels
together. Compared with previous efforts, by simultaneously optimizing the two
coupled objectives of semantic grouping and contrastive learning, our approach
bypasses the disadvantages of hand-crafted priors and is able to learn
object/group-level representations from scene-centric images. Experiments show
our approach effectively decomposes complex scenes into semantic groups for
feature learning and significantly benefits downstream tasks, including object
detection, instance segmentation, and semantic segmentation. The code will be
made publicly available.
- Abstract(参考訳): 本稿では,未ラベルのシーン中心データから視覚表現を学習する問題に取り組む。
既存の研究は、シーン中心のデータで基盤となる複雑な構造を利用する可能性を実証している。しかしながら、それらは一般的に、手作りのオブジェクトネスプリエントや特殊なプリテキストタスクに依存して、汎用性を損なう可能性のある学習フレームワークを構築している。
そこで本研究では,データ駆動型セマンティックスロット,すなわちSlotConから,協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
セマンティックグルーピングは、一組の学習可能なプロトタイプに画素を割り当てることによって行われ、これによって各サンプルに適応することができる。
学習したデータ依存スロットに基づいて、特徴の識別性を高め、逆に意味的にコヒーレントな画素をグループ化するのを容易にする表現学習のための対比目的を用いる。
従来の手法と比較して, 意味的グループ化とコントラスト学習の2つの目標を同時に最適化することで, 手作り事前学習の欠点を回避し, シーン中心の画像からオブジェクト/グループレベルの表現を学習できる。
実験により,複雑なシーンを特徴学習のためのセマンティックグループに効果的に分解し,オブジェクト検出,インスタンス分割,セマンティックセマンティックセマンティクスといった下流タスクに多大な利益をもたらすことが示された。
コードは公開される予定だ。
関連論文リスト
- GroupContrast: Semantic-aware Self-supervised Representation Learning for 3D Understanding [66.5538429726564]
自己教師付き3D表現学習は、大規模未ラベルの点群から効果的な表現を学習することを目的としている。
本稿では,セグメンテーションとセマンティック・アウェア・コントラッシブ・ラーニングを組み合わせた新しいアプローチであるGroupContrastを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:59:59Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Matching Multiple Perspectives for Efficient Representation Learning [0.0]
本稿では,自己教師型学習とマルチパースペクティブマッチング技術を組み合わせたアプローチを提案する。
我々は,同一オブジェクトの複数ビューと多種多様な自己教師付き事前学習アルゴリズムを組み合わせることで,オブジェクト分類性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-16T10:33:13Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Self-Supervised Learning of Object Parts for Semantic Segmentation [7.99536002595393]
我々は、オブジェクト部品の自己教師型学習がこの問題の解決策であると主張している。
本手法は3つのセマンティックセグメンテーションベンチマークの最先端を17%-3%超える。
論文 参考訳(メタデータ) (2022-04-27T17:55:17Z) - Object Pursuit: Building a Space of Objects via Discriminative Weight
Generation [23.85039747700698]
視覚学習と理解のためのオブジェクト中心表現を継続的に学習するフレームワークを提案する。
我々は、オブジェクト中心の表現を学習しながら、オブジェクトとそれに対応するトレーニング信号の多様なバリエーションをサンプリングするために、インタラクションを活用する。
提案するフレームワークの重要な特徴について広範な研究を行い,学習した表現の特徴を分析した。
論文 参考訳(メタデータ) (2021-12-15T08:25:30Z) - Quantifying Learnability and Describability of Visual Concepts Emerging
in Representation Learning [91.58529629419135]
我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。
本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
論文 参考訳(メタデータ) (2020-10-27T18:41:49Z) - Unsupervised Image Classification for Deep Representation Learning [42.09716669386924]
埋め込みクラスタリングを使わずに、教師なしのイメージ分類フレームワークを提案する。
提案手法の有効性を証明するために,ImageNetデータセットの実験を行った。
論文 参考訳(メタデータ) (2020-06-20T02:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。