論文の概要: Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency
- arxiv url: http://arxiv.org/abs/2105.06463v1
- Date: Thu, 13 May 2021 17:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 13:55:42.133124
- Title: Contrastive Learning of Image Representations with Cross-Video
Cycle-Consistency
- Title(参考訳): クロスビデオを用いた画像表現のコントラスト学習
- Authors: Haiping Wu, Xiaolong Wang
- Abstract要約: ビデオ間関係は視覚表現学習ではほとんど研究されていない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
最先端のコントラスト学習方法よりも大幅に改善されています。
- 参考スコア(独自算出の注目度): 13.19476138523546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have advanced the performance of self-supervised representation
learning by a large margin. The core among these methods is intra-image
invariance learning. Two different transformations of one image instance are
considered as a positive sample pair, where various tasks are designed to learn
invariant representations by comparing the pair. Analogically, for video data,
representations of frames from the same video are trained to be closer than
frames from other videos, i.e. intra-video invariance. However, cross-video
relation has barely been explored for visual representation learning. Unlike
intra-video invariance, ground-truth labels of cross-video relation is usually
unavailable without human labors. In this paper, we propose a novel contrastive
learning method which explores the cross-video relation by using
cycle-consistency for general image representation learning. This allows to
collect positive sample pairs across different video instances, which we
hypothesize will lead to higher-level semantics. We validate our method by
transferring our image representation to multiple downstream tasks including
visual object tracking, image classification, and action recognition. We show
significant improvement over state-of-the-art contrastive learning methods.
Project page is available at https://happywu.github.io/cycle_contrast_video.
- Abstract(参考訳): 最近の研究は、自己指導型表現学習の性能を大きなマージンで向上させてきた。
これらの方法の核心は画像内不変性学習である。
1つの画像インスタンスの2つの異なる変換は正のサンプルペアと見なされ、様々なタスクはペアを比較して不変表現を学ぶように設計されている。
アナロジー的には、ビデオデータの場合、同じビデオのフレームの表現は他のビデオのフレームよりも近いように訓練される。
ビデオ内不変性。
しかし,視覚表現学習ではビデオ間関係がほとんど研究されていない。
ビデオ内不変性とは異なり、ビデオ間関係の地道ラベルは通常、人間の労力なしでは利用できない。
本稿では,一般画像表現学習のサイクル一貫性を利用して,映像間関係を探索する新しいコントラスト学習手法を提案する。
これにより、さまざまなビデオインスタンスにまたがってポジティブなサンプルペアを収集することが可能になります。
提案手法は,視覚物体追跡,画像分類,行動認識など,複数の下流タスクに画像表現を転送することで検証する。
我々は、最先端のコントラスト学習法よりも大幅に改善した。
プロジェクトページはhttps://happywu.github.io/cycle_contrast_videoで閲覧できる。
関連論文リスト
- JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Rethinking Self-supervised Correspondence Learning: A Video Frame-level
Similarity Perspective [13.90183404059193]
ビデオフレームレベルの類似度(VFS)学習を用いた対応学習を提案する。
我々の研究は、画像レベルのコントラスト学習と視覚認識のための類似学習の成功に触発されている。
VFSは、OTBビジュアルオブジェクトトラッキングとDAVISビデオオブジェクトセグメンテーションの両方において、最先端の自己監視アプローチを超える驚くべき結果を示しています。
論文 参考訳(メタデータ) (2021-03-31T17:56:35Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Watching the World Go By: Representation Learning from Unlabeled Videos [78.22211989028585]
近年の単一画像教師なし表現学習技術は,様々なタスクにおいて顕著な成功を収めている。
本稿では,この自然な拡張を無償で提供することを論じる。
そこで本稿では,ビデオノイズコントラスト推定(Voice Noise Contrastive Estimation)を提案する。
論文 参考訳(メタデータ) (2020-03-18T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。