論文の概要: Composable Augmentation Encoding for Video Representation Learning
- arxiv url: http://arxiv.org/abs/2104.00616v1
- Date: Thu, 1 Apr 2021 16:48:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:33:59.406666
- Title: Composable Augmentation Encoding for Video Representation Learning
- Title(参考訳): 映像表現学習のための構成可能拡張符号化
- Authors: Chen Sun, Arsha Nagrani, Yonglong Tian and Cordelia Schmid
- Abstract要約: 自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 94.2358972764708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on contrastive methods for self-supervised video representation
learning. A common paradigm in contrastive learning is to construct positive
pairs by sampling different data views for the same instance, with different
data instances as negatives. These methods implicitly assume a set of
representational invariances to the view selection mechanism (eg, sampling
frames with temporal shifts), which may lead to poor performance on downstream
tasks which violate these invariances (fine-grained video action recognition
that would benefit from temporal information). To overcome this limitation, we
propose an 'augmentation aware' contrastive learning framework, where we
explicitly provide a sequence of augmentation parameterisations (such as the
values of the time shifts used to create data views) as composable augmentation
encodings (CATE) to our model when projecting the video representations for
contrastive learning. We show that representations learned by our method encode
valuable information about specified spatial or temporal augmentation, and in
doing so also achieve state-of-the-art performance on a number of video
benchmarks.
- Abstract(参考訳): 自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
これらの手法は、ビュー選択機構(例えば、時間的シフトのあるフレームをサンプリングする)に対する表現的不変性の集合を暗黙的に仮定し、これらの不変性(時間的情報から恩恵を受けるきめ細かいビデオアクション認識)に違反する下流タスクのパフォーマンスを低下させる可能性がある。
この制限を克服するために、コントラスト学習のためのビデオ表現を投影する際のモデルに、構成可能な拡張符号化(CATE)として、拡張パラメータ化(データビューの作成に使用される時間シフトの値など)のシーケンスを明示的に提供する「拡張対応」コントラスト学習フレームワークを提案する。
本手法で学習した表現は,特定の空間的あるいは時間的拡張に関する貴重な情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
関連論文リスト
- Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Self-supervised Temporal Discriminative Learning for Video
Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文 参考訳(メタデータ) (2020-08-05T13:36:59Z) - Video Representation Learning with Visual Tempo Consistency [105.20094164316836]
映像表現学習における自己超越信号として視覚的テンポが有効であることを示す。
本稿では,階層的コントラスト学習によるスロービデオと高速ビデオの表現間の相互情報の最大化を提案する。
論文 参考訳(メタデータ) (2020-06-28T02:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。