論文の概要: Self-supervised Video Representation Learning by Pace Prediction
- arxiv url: http://arxiv.org/abs/2008.05861v2
- Date: Fri, 4 Sep 2020 08:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 23:32:04.301759
- Title: Self-supervised Video Representation Learning by Pace Prediction
- Title(参考訳): ペース予測による自己教師付き映像表現学習
- Authors: Jiangliu Wang, Jianbo Jiao, and Yun-Hui Liu
- Abstract要約: 本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
- 参考スコア(独自算出の注目度): 48.029602040786685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of self-supervised video representation
learning from a new perspective -- by video pace prediction. It stems from the
observation that human visual system is sensitive to video pace, e.g., slow
motion, a widely used technique in film making. Specifically, given a video
played in natural pace, we randomly sample training clips in different paces
and ask a neural network to identify the pace for each video clip. The
assumption here is that the network can only succeed in such a pace reasoning
task when it understands the underlying video content and learns representative
spatio-temporal features. In addition, we further introduce contrastive
learning to push the model towards discriminating different paces by maximizing
the agreement on similar video content. To validate the effectiveness of the
proposed method, we conduct extensive experiments on action recognition and
video retrieval tasks with several alternative network architectures.
Experimental evaluations show that our approach achieves state-of-the-art
performance for self-supervised video representation learning across different
network architectures and different benchmarks. The code and pre-trained models
are available at https://github.com/laura-wang/video-pace.
- Abstract(参考訳): 本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
これは、人間の視覚システムが、映画製作で広く使われている技術であるスローモーションなど、ビデオのペースに敏感であるという観察から来ている。
具体的には、ビデオが自然なペースで再生された場合、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するように依頼する。
ここでの前提は、ネットワークは、基礎となるビデオコンテンツを理解して、代表時空間の特徴を学習するときにのみ、そのようなペース推論タスクを成功させることである。
さらに,類似ビデオコンテンツに対する合意を最大化することにより,異なるペースの識別に向けてモデルをプッシュするコントラスト学習についても紹介する。
提案手法の有効性を検証するため,複数の代替ネットワークアーキテクチャを用いて,行動認識および映像検索タスクについて広範な実験を行った。
実験により,ネットワークアーキテクチャやベンチマークの異なる自己教師付きビデオ表現学習において,本手法が最先端の性能を実現することを示す。
コードと事前学習されたモデルは、https://github.com/laura-wang/video-paceで入手できる。
関連論文リスト
- Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Self-Supervised Video Representation Learning by Video Incoherence
Detection [28.540645395066434]
本稿では,ビデオ表現学習における非コヒーレンス検出を利用した自己教師方式を提案する。
人間の視覚系は、ビデオの包括的理解に基づいて、容易にビデオの不整合を識別できるという観察に根ざしている。
論文 参考訳(メタデータ) (2021-09-26T04:58:13Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。
本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:19:20Z) - Exploring Relations in Untrimmed Videos for Self-Supervised Learning [17.670226952829506]
既存の自己教師付き学習手法は主にモデルトレーニングのためのトリミングビデオに依存している。
非時間ビデオ(ERUV)における探索関係(Exploring Relations in Untemporal Videos)と呼ばれる,新たな自己管理手法を提案する。
ERUVはよりリッチな表現を学習することができ、最先端の自己管理手法よりも優れたマージンを持つ。
論文 参考訳(メタデータ) (2020-08-06T15:29:25Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Self-Supervised Visual Learning by Variable Playback Speeds Prediction
of a Video [23.478555947694108]
ビデオの再生速度の変動を予測し,自己教師付き視覚学習手法を提案する。
再生速度に応じて映像の外観の変動を利用して映像のメタ時間的視覚変化を学習する。
また,3次元畳み込みネットワークに適用可能な時間群正規化手法を提案する。
論文 参考訳(メタデータ) (2020-03-05T15:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。