論文の概要: Unsupervised Object-Level Representation Learning from Scene Images
- arxiv url: http://arxiv.org/abs/2106.11952v1
- Date: Tue, 22 Jun 2021 17:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 14:52:59.848740
- Title: Unsupervised Object-Level Representation Learning from Scene Images
- Title(参考訳): シーン画像からの教師なしオブジェクトレベル表現学習
- Authors: Jiahao Xie, Xiaohang Zhan, Ziwei Liu, Yew Soon Ong, Chen Change Loy
- Abstract要約: Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
- 参考スコア(独自算出の注目度): 97.07686358706397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive self-supervised learning has largely narrowed the gap to
supervised pre-training on ImageNet. However, its success highly relies on the
object-centric priors of ImageNet, i.e., different augmented views of the same
image correspond to the same object. Such a heavily curated constraint becomes
immediately infeasible when pre-trained on more complex scene images with many
objects. To overcome this limitation, we introduce Object-level Representation
Learning (ORL), a new self-supervised learning framework towards scene images.
Our key insight is to leverage image-level self-supervised pre-training as the
prior to discover object-level semantic correspondence, thus realizing
object-level representation learning from scene images. Extensive experiments
on COCO show that ORL significantly improves the performance of self-supervised
learning on scene images, even surpassing supervised ImageNet pre-training on
several downstream tasks. Furthermore, ORL improves the downstream performance
when more unlabeled scene images are available, demonstrating its great
potential of harnessing unlabeled data in the wild. We hope our approach can
motivate future research on more general-purpose unsupervised representation
learning from scene data. Project page: https://www.mmlab-ntu.com/project/orl/.
- Abstract(参考訳): 対照的な自己教師付き学習は、imagenetでの教師付き事前学習のギャップを大きく狭めている。
しかし、その成功はImageNetのオブジェクト中心の先行性、すなわち同じイメージの異なる拡張ビューが同じオブジェクトに対応することに依存している。
このような厳密な制約は、多くのオブジェクトを持つより複雑なシーンイメージに対して事前訓練を行うとすぐに実現不可能になる。
この制限を克服するために,シーンイメージに対する新たな自己教師型学習フレームワークであるObject-level Representation Learning (ORL)を導入する。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を活用して、シーンイメージからオブジェクトレベルの表現学習を実現することである。
COCOの大規模な実験により、ORLはシーンイメージにおける自己教師あり学習の性能を著しく改善し、複数の下流タスクにおける教師ありイメージネットの事前学習を超越している。
さらにorlは、ラベルなしのシーンイメージが利用可能になったときに下流のパフォーマンスを改善し、ラベルなしのデータを野生で活用する可能性を示す。
このアプローチが、シーンデータからより汎用的な教師なし表現学習に関する将来の研究を動機付けることを願っています。
プロジェクトページ: https://www.mmlab-ntu.com/project/orl/
関連論文リスト
- Saliency Guided Contrastive Learning on Scene Images [71.07412958621052]
我々は、学習中のモデルの出力から導かれるサリエンシマップを活用し、差別的な領域を強調し、対照的な学習全体をガイドする。
提案手法は,画像上の自己教師学習の性能を,画像の線形評価において+1.1,+4.3,+2.2の精度で向上させる。
論文 参考訳(メタデータ) (2023-02-22T15:54:07Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - Object-Aware Cropping for Self-Supervised Learning [21.79324121283122]
本研究では,通常のランダムな作付けに基づく自己教師型学習が,このようなデータセットでは不十分であることを示す。
対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。
オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-01T07:23:37Z) - Contrastive Object-level Pre-training with Spatial Noise Curriculum
Learning [12.697842097171119]
本稿では,生成した領域を適応的に拡張するカリキュラム学習機構を提案する。
実験の結果,マルチオブジェクトシーンイメージデータセットの事前学習において,MoCo v2のベースラインに対するアプローチは,複数のオブジェクトレベルタスクに対して大きなマージンで改善されていることがわかった。
論文 参考訳(メタデータ) (2021-11-26T18:29:57Z) - When Does Contrastive Visual Representation Learning Work? [13.247759411409936]
4つの大規模データセットの対比的自己監視学習について検討する。
i)500k画像を超える予備トレーニングデータの追加の利点は控えめであり、(ii)他のドメインからの予備トレーニング画像の追加は、より一般的な表現につながるものではなく、(iii)破損した予備トレーニング画像は、監督および自己監督の予備トレーニングに異なる影響を与えます。
論文 参考訳(メタデータ) (2021-05-12T17:52:42Z) - Self-Supervised Learning of Remote Sensing Scene Representations Using
Contrastive Multiview Coding [0.0]
遠隔センシング画像分類における自己監督学習の適用可能性の分析を行う。
遠隔センシング画像分類の下流課題において,自己教師付き事前学習は自然シーン画像の教師付き事前学習よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-14T18:25:43Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。