論文の概要: Semantic-Aware Generation for Self-Supervised Visual Representation
Learning
- arxiv url: http://arxiv.org/abs/2111.13163v1
- Date: Thu, 25 Nov 2021 16:46:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 16:43:05.142911
- Title: Semantic-Aware Generation for Self-Supervised Visual Representation
Learning
- Title(参考訳): 自己監督型視覚表現学習のための意味認識生成
- Authors: Yunjie Tian, Lingxi Xie, Xiaopeng Zhang, Jiemin Fang, Haohang Xu, Wei
Huang, Jianbin Jiao, Qi Tian, Qixiang Ye
- Abstract要約: セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
- 参考スコア(独自算出の注目度): 116.5814634936371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a self-supervised visual representation learning
approach which involves both generative and discriminative proxies, where we
focus on the former part by requiring the target network to recover the
original image based on the mid-level features. Different from prior work that
mostly focuses on pixel-level similarity between the original and generated
images, we advocate for Semantic-aware Generation (SaGe) to facilitate richer
semantics rather than details to be preserved in the generated image. The core
idea of implementing SaGe is to use an evaluator, a deep network that is
pre-trained without labels, for extracting semantic-aware features. SaGe
complements the target network with view-specific features and thus alleviates
the semantic degradation brought by intensive data augmentations. We execute
SaGe on ImageNet-1K and evaluate the pre-trained models on five downstream
tasks including nearest neighbor test, linear classification, and fine-scaled
image recognition, demonstrating its ability to learn stronger visual
representations.
- Abstract(参考訳): 本稿では,生成的プロキシと識別的プロキシの両方が関与する自己教師型視覚表現学習手法を提案する。
原画像と生成画像のピクセルレベルでの類似性を重視した先行研究とは異なり、我々は、生成画像に保存する詳細よりも、よりリッチなセマンティクスを促進するための意味認識生成(sage)を提唱する。
SaGeを実装する基本的な考え方は、ラベルなしで事前トレーニングされたディープネットワークである評価器を使用して、セマンティック・アウェアな特徴を抽出することだ。
sageはターゲットネットワークをビュー特有の特徴で補完し、集中的なデータ拡張によってもたらされる意味的劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、隣り合うテスト、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
関連論文リスト
- Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - Self-Correlation and Cross-Correlation Learning for Few-Shot Remote
Sensing Image Semantic Segmentation [27.59330408178435]
リモートセマンティックセマンティックセマンティックセマンティクスは、クエリイメージからターゲットオブジェクトをセグメントすることを学ぶことを目的としている。
本稿では,数発のリモートセンシング画像セマンティックセマンティックセグメンテーションのための自己相関・相互相関学習ネットワークを提案する。
本モデルは,サポート画像とクエリ画像の自己相関と相互相関の両方を考慮し,一般化を促進させる。
論文 参考訳(メタデータ) (2023-09-11T21:53:34Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Learning Hierarchical Image Segmentation For Recognition and By Recognition [39.712584686731574]
本稿では,階層的なセグメンタを認識プロセスに統合し,画像レベルの認識目的のみに基づいてモデル全体を訓練し,適応させることを提案する。
我々は,認識とともに自由な階層的セグメンテーションを学習し,その基盤となるだけでなく,認識の向上にも寄与する部分間関係を自動的に発見する。
特に,このモデル(ラベルなし1Mイメージネット画像でトレーニング)は,PartImageNetオブジェクトセグメンテーションのmIoUにおいて,SAM(11Mイメージマスクでトレーニング)を絶対8%上回っている。
論文 参考訳(メタデータ) (2022-10-01T16:31:44Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。