論文の概要: Self-supervised Video Representation Learning by Context and Motion
Decoupling
- arxiv url: http://arxiv.org/abs/2104.00862v1
- Date: Fri, 2 Apr 2021 02:47:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 14:04:45.423357
- Title: Self-supervised Video Representation Learning by Context and Motion
Decoupling
- Title(参考訳): 文脈と動きの分離による自己教師付き映像表現学習
- Authors: Lianghua Huang, Yu Liu, Bin Wang, Pan Pan, Yinghui Xu, Rong Jin
- Abstract要約: 自己教師付き映像表現学習における課題は、文脈バイアス以外に効果的な動き情報を捉える方法である。
注意深い前文タスクを通じて,文脈バイアスから動きの監督を明示的に分離する手法を開発した。
実験により,本手法は従来よりも学習ビデオの表現精度の向上を図っている。
- 参考スコア(独自算出の注目度): 45.510042484456854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in self-supervised video representation learning is how to
effectively capture motion information besides context bias. While most
existing works implicitly achieve this with video-specific pretext tasks (e.g.,
predicting clip orders, time arrows, and paces), we develop a method that
explicitly decouples motion supervision from context bias through a carefully
designed pretext task. Specifically, we take the keyframes and motion vectors
in compressed videos (e.g., in H.264 format) as the supervision sources for
context and motion, respectively, which can be efficiently extracted at over
500 fps on the CPU. Then we design two pretext tasks that are jointly
optimized: a context matching task where a pairwise contrastive loss is cast
between video clip and keyframe features; and a motion prediction task where
clip features, passed through an encoder-decoder network, are used to estimate
motion features in a near future. These two tasks use a shared video backbone
and separate MLP heads. Experiments show that our approach improves the quality
of the learned video representation over previous works, where we obtain
absolute gains of 16.0% and 11.1% in video retrieval recall on UCF101 and
HMDB51, respectively. Moreover, we find the motion prediction to be a strong
regularization for video networks, where using it as an auxiliary task improves
the accuracy of action recognition with a margin of 7.4%~13.8%.
- Abstract(参考訳): 自己教師付き映像表現学習における鍵となる課題は、文脈バイアス以外に効果的な動き情報を捉える方法である。
既存の作業の多くは、ビデオ固有のプリテキストタスク(例えば、クリップの順序、時間矢印、ペースの予測)でこれを暗黙的に達成するが、慎重に設計されたプリテキストタスクを通して、動きの監視をコンテキストバイアスから明示的に分離する手法を開発する。
具体的には、圧縮ビデオ(例えばH.264フォーマット)のキーフレームとモーションベクトルを、それぞれコンテキストとモーションの監督源としており、CPU上の500fps以上で効率的に抽出することができる。
次に,ビデオクリップとキーフレームの特徴間の相互にコントラストのあるロスをキャストするコンテキストマッチングタスクと,エンコーダ・デコーダネットワークを介してクリップ特徴を伝達する動作予測タスクとを併用して,近い将来に動作特徴を推定する。
これら2つのタスクは、共有ビデオバックボーンと別々のMLPヘッドを使用する。
実験の結果,本手法は先行研究よりも学習した映像表現の品質が向上し,それぞれutf101とhmdb51の映像検索リコールにおいて16.0%と11.1%の絶対的なゲインを得た。
さらに,動作予測は映像ネットワークの強い正規化であり,映像ネットワークを補助タスクとして用いることで,動作認識の精度が7.4%~13.8%向上することがわかった。
関連論文リスト
- VideoPrism: A Foundational Visual Encoder for Video Understanding [90.01845485201746]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - Temporal Alignment Networks for Long-term Video [103.69904379356413]
本稿では,長時間のビデオシーケンスと関連するテキストを取り込み,時間的アライメントネットワークを提案する。
我々は、関連するテキストが大きなノイズを持つHowTo100Mのような大規模データセットから、そのようなネットワークをトレーニングする。
提案モデルでは,HowTo100Mに基づいてトレーニングし,このアライメントデータセット上での強いベースライン(CLIP, MIL-NCE)を上回った。
論文 参考訳(メタデータ) (2022-04-06T17:59:46Z) - Self-supervised Video Representation Learning with Cross-Stream
Prototypical Contrasting [2.2530496464901106]
ビデオ・クロスストリーム・プロトタイプ・コントラスティング」はRGBと光フロービューの両方から一貫したプロトタイプの割り当てを予測する新しい手法である。
最寄りの映像検索と行動認識における最先端の検索結果を得る。
論文 参考訳(メタデータ) (2021-06-18T13:57:51Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。