論文の概要: Self-Supervised Viewpoint Learning From Image Collections
- arxiv url: http://arxiv.org/abs/2004.01793v1
- Date: Fri, 3 Apr 2020 22:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 04:45:11.741124
- Title: Self-Supervised Viewpoint Learning From Image Collections
- Title(参考訳): イメージコレクションからの自己監督型視点学習
- Authors: Siva Karthik Mustikovela, Varun Jampani, Shalini De Mello, Sifei Liu,
Umar Iqbal, Carsten Rother, Jan Kautz
- Abstract要約: 本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
- 参考スコア(独自算出の注目度): 116.56304441362994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep neural networks to estimate the viewpoint of objects requires
large labeled training datasets. However, manually labeling viewpoints is
notoriously hard, error-prone, and time-consuming. On the other hand, it is
relatively easy to mine many unlabelled images of an object category from the
internet, e.g., of cars or faces. We seek to answer the research question of
whether such unlabeled collections of in-the-wild images can be successfully
utilized to train viewpoint estimation networks for general object categories
purely via self-supervision. Self-supervision here refers to the fact that the
only true supervisory signal that the network has is the input image itself. We
propose a novel learning framework which incorporates an analysis-by-synthesis
paradigm to reconstruct images in a viewpoint aware manner with a generative
network, along with symmetry and adversarial constraints to successfully
supervise our viewpoint estimation network. We show that our approach performs
competitively to fully-supervised approaches for several object categories like
human faces, cars, buses, and trains. Our work opens up further research in
self-supervised viewpoint learning and serves as a robust baseline for it. We
open-source our code at https://github.com/NVlabs/SSV.
- Abstract(参考訳): オブジェクトの視点を推定するためにディープニューラルネットワークをトレーニングするには、大きなラベル付きトレーニングデータセットが必要である。
しかしながら、手動で視点をラベル付けするのは、非常に難しく、エラーを起こし、時間がかかります。
一方で、車や顔などのインターネットから、オブジェクトカテゴリの多数のラベルのないイメージをマイニングすることは比較的容易である。
そこで本研究では,このようなラベルなし画像群を,自己スーパービジョンを通して,一般対象カテゴリの視点推定ネットワークの訓練に有効活用できるかどうかを考察する。
ここでの自己スーパービジョンとは、ネットワークが持つ唯一の真の監視信号が入力画像自身であるという事実を指す。
本稿では,生成ネットワークを用いた視点認識による画像再構成のための分析・合成パラダイムを組み込んだ新しい学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
我々の研究は、自己監督型視点学習のさらなる研究を開放し、その基盤となる。
ソースコードはhttps://github.com/NVlabs/SSV.comで公開しています。
関連論文リスト
- Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - ViewNet: Unsupervised Viewpoint Estimation from Conditional Generation [35.89557494372891]
我々はこれを自己教師付き学習タスクとして定式化し、画像再構成はカメラの視点を予測するのに必要な監督を提供する。
本研究では、視点空間変換器を用いることで、効率的な視点学習が可能であり、既存の教師なしの合成データに対するアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-01T11:16:04Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Unsupervised Object-Level Representation Learning from Scene Images [97.07686358706397]
Object-level Representation Learning (ORL) はシーンイメージに対する新たな自己教師型学習フレームワークである。
我々の重要な洞察は、画像レベルの自己教師付き事前学習を、オブジェクトレベルの意味的対応を見つけるための事前学習として活用することである。
ORLは、複数の下流タスクにおける教師付きImageNet事前学習を超越しても、シーンイメージ上での自己教師型学習のパフォーマンスを著しく向上させる。
論文 参考訳(メタデータ) (2021-06-22T17:51:24Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - Unsupervised Image Classification for Deep Representation Learning [42.09716669386924]
埋め込みクラスタリングを使わずに、教師なしのイメージ分類フレームワークを提案する。
提案手法の有効性を証明するために,ImageNetデータセットの実験を行った。
論文 参考訳(メタデータ) (2020-06-20T02:57:06Z) - VirTex: Learning Visual Representations from Textual Annotations [25.104705278771895]
VirTexは、意味的に密接なキャプションを使用して視覚表現を学習する事前学習のアプローチである。
我々はCOCOキャプションのスクラッチから畳み込みネットワークを訓練し、それらを下流認識タスクに転送する。
すべてのタスクにおいて、VirTexはImageNetで学んだもの(教師なしまたは教師なし)と一致するか、あるいは超える機能を提供します。
論文 参考訳(メタデータ) (2020-06-11T17:58:48Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。