論文の概要: Watching the World Go By: Representation Learning from Unlabeled Videos
- arxiv url: http://arxiv.org/abs/2003.07990v2
- Date: Thu, 7 May 2020 17:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 10:18:41.287530
- Title: Watching the World Go By: Representation Learning from Unlabeled Videos
- Title(参考訳): world go by: ラベルのないビデオからの表現学習
- Authors: Daniel Gordon, Kiana Ehsani, Dieter Fox, Ali Farhadi
- Abstract要約: 近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
本稿では,この自然な拡張を無償で提供することを論じる。
そこで本稿では,ビデオノイズコントラスト推定(Voice Noise Contrastive Estimation)を提案する。
- 参考スコア(独自算出の注目度): 78.22211989028585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent single image unsupervised representation learning techniques show
remarkable success on a variety of tasks. The basic principle in these works is
instance discrimination: learning to differentiate between two augmented
versions of the same image and a large batch of unrelated images. Networks
learn to ignore the augmentation noise and extract semantically meaningful
representations. Prior work uses artificial data augmentation techniques such
as cropping, and color jitter which can only affect the image in superficial
ways and are not aligned with how objects actually change e.g. occlusion,
deformation, viewpoint change. In this paper, we argue that videos offer this
natural augmentation for free. Videos can provide entirely new views of
objects, show deformation, and even connect semantically similar but visually
distinct concepts. We propose Video Noise Contrastive Estimation, a method for
using unlabeled video to learn strong, transferable single image
representations. We demonstrate improvements over recent unsupervised single
image techniques, as well as over fully supervised ImageNet pretraining, across
a variety of temporal and non-temporal tasks. Code and the Random Related Video
Views dataset are available at https://www.github.com/danielgordon10/vince
- Abstract(参考訳): 近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
これらの作業の基本原理は、インスタンス識別である。同じ画像の2つの拡張バージョンと、無関係な画像の大きなバッチを区別する学習。
ネットワークは拡張ノイズを無視し、意味的に意味のある表現を抽出する。
以前の作業では、クロッピングやカラージッタといった人工的なデータ拡張技術を使用しており、表面的な方法でしかイメージに影響を与えず、オブジェクトの実際の変化、例えば、咬合、変形、視点の変化と一致しない。
本稿では,この自然な拡張をビデオが無償で提供することを論じる。
ビデオはオブジェクトのまったく新しいビューを提供し、変形を示し、意味的に似ているが視覚的に異なる概念を接続する。
本研究では,無ラベル映像を用いた強固な単一画像表現の学習手法であるビデオノイズコントラスト推定を提案する。
我々は、最近の教師なしシングルイメージ技術と、時間的・非時間的タスクにおけるフル教師付きイメージネット事前トレーニングの改善を実証する。
コードとランダムな関連ビデオビューデータセットは、https://www.github.com/danielgordon10/vinceで入手できる。
関連論文リスト
- Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - Guess What Moves: Unsupervised Video and Image Segmentation by
Anticipating Motion [92.80981308407098]
本稿では,動きに基づくセグメンテーションと外観に基づくセグメンテーションの強みを組み合わせたアプローチを提案する。
本稿では、画像分割ネットワークを監督し、単純な動きパターンを含む可能性のある領域を予測することを提案する。
教師なしのビデオセグメンテーションモードでは、ネットワークは、学習プロセス自体をこれらのビデオをセグメンテーションするアルゴリズムとして使用して、ラベルのないビデオの集合に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-16T17:55:34Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency [13.19476138523546]
ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
論文 参考訳(メタデータ) (2021-05-13T17:59:11Z) - Self-Supervised Representation Learning from Flow Equivariance [97.13056332559526]
本稿では,複雑なシーンの映像ストリームに直接展開可能な,自己教師型学習表現フレームワークを提案する。
高分解能rawビデオから学んだ我々の表現は、静的画像の下流タスクに簡単に使用できます。
論文 参考訳(メタデータ) (2021-01-16T23:44:09Z) - Demystifying Contrastive Self-Supervised Learning: Invariances,
Augmentations and Dataset Biases [34.02639091680309]
近年のパフォーマンス向上は、インスタンス分類モデルをトレーニングし、各イメージを扱い、拡張バージョンを単一のクラスのサンプルとして扱うことで実現している。
我々は,MOCO や PIRL のようなアプローチがオクルージョン不変表現を学習することを示した。
第2に、Imagenetのようなクリーンなオブジェクト中心のトレーニングデータセットにアクセスすることで、これらのアプローチがさらに利益を得ることを示す。
論文 参考訳(メタデータ) (2020-07-28T00:11:31Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。