論文の概要: VideoMoCo: Contrastive Video Representation Learning with Temporally
Adversarial Examples
- arxiv url: http://arxiv.org/abs/2103.05905v1
- Date: Wed, 10 Mar 2021 07:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 14:59:32.908890
- Title: VideoMoCo: Contrastive Video Representation Learning with Temporally
Adversarial Examples
- Title(参考訳): VideoMoCo: 時間的対比の例を用いた対比ビデオ表現学習
- Authors: Tian Pan, Yibing Song, Tianyu Yang, Wenhao Jiang, and Wei Liu
- Abstract要約: MoCoは教師なし画像表現学習に有効である。
本稿では,教師なし映像表現学習のためのVideoMoCoを提案する。
UCF101およびHMDB51を含むベンチマークデータセットの実験は、VideoMoCoが最先端のビデオ表現学習方法として立っていることを示しています。
- 参考スコア(独自算出の注目度): 40.76375895934152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MoCo is effective for unsupervised image representation learning. In this
paper, we propose VideoMoCo for unsupervised video representation learning.
Given a video sequence as an input sample, we improve the temporal feature
representations of MoCo from two perspectives. First, we introduce a generator
to drop out several frames from this sample temporally. The discriminator is
then learned to encode similar feature representations regardless of frame
removals. By adaptively dropping out different frames during training
iterations of adversarial learning, we augment this input sample to train a
temporally robust encoder. Second, we use temporal decay to model key
attenuation in the memory queue when computing the contrastive loss. As the
momentum encoder updates after keys enqueue, the representation ability of
these keys degrades when we use the current input sample for contrastive
learning. This degradation is reflected via temporal decay to attend the input
sample to recent keys in the queue. As a result, we adapt MoCo to learn video
representations without empirically designing pretext tasks. By empowering the
temporal robustness of the encoder and modeling the temporal decay of the keys,
our VideoMoCo improves MoCo temporally based on contrastive learning.
Experiments on benchmark datasets including UCF101 and HMDB51 show that
VideoMoCo stands as a state-of-the-art video representation learning method.
- Abstract(参考訳): MoCoは教師なし画像表現学習に有効である。
本稿では,教師なし映像表現学習のためのVideoMoCoを提案する。
ビデオシーケンスを入力サンプルとして、MoCoの時系列特徴表現を2つの視点から改善します。
まず、このサンプルから時間的に複数のフレームをドロップアウトするジェネレータを導入する。
識別器は、フレーム削除に関係なく、類似した特徴表現を符号化する。
敵学習のトレーニングイテレーション中に異なるフレームを適応的に削除することで、この入力サンプルを拡張して時間的にロバストなエンコーダをトレーニングする。
第二に、コントラスト損失を計算する際に、時間減衰を用いてメモリキューのキー減衰をモデル化する。
キーエンキュー後にモーメントエンコーダが更新されると、コントラスト学習に現在の入力サンプルを使用すると、キーの表現能力が低下する。
この劣化は時間減衰によって反映され、入力サンプルに待ち行列の最近のキーに出席する。
その結果、経験的にプリテキストタスクを設計することなく、MoCoをビデオ表現の学習に適応します。
エンコーダの時間的ロバスト性を強化し,鍵の時間的減衰をモデル化することにより,ビデオモコはコントラスト学習に基づく時間的改善を行う。
UCF101およびHMDB51を含むベンチマークデータセットの実験は、VideoMoCoが最先端のビデオ表現学習方法として立っていることを示しています。
関連論文リスト
- Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。
Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。
高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文 参考訳(メタデータ) (2022-08-06T17:38:25Z) - Cross-Architecture Self-supervised Video Representation Learning [42.267775859095664]
自己教師型ビデオ表現学習のためのクロスアーキテクチャ・コントラスト学習フレームワークを提案する。
本稿では,2つのビデオシーケンス間の編集距離を明示的に予測できる時間的自己教師型学習モジュールを提案する。
UCF101およびHMDB51データセットにおける映像検索と行動認識のタスクについて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-26T12:41:19Z) - Time-Equivariant Contrastive Video Representation Learning [47.50766781135863]
本稿では,非競合ビデオから表現を学習するための,自己指導型コントラスト学習手法を提案する。
実験により,映像検索と行動認識のベンチマークにおいて,時変表現が最先端の結果をもたらすことが示された。
論文 参考訳(メタデータ) (2021-12-07T10:45:43Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z) - Multiple Instance-Based Video Anomaly Detection using Deep Temporal
Encoding-Decoding [5.255783459833821]
本稿では,監視ビデオにおける異常検出のための時間的深部符号化復号化手法を提案する。
提案手法はトレーニング期間中に異常ビデオクリップと正常ビデオクリップの両方を使用する。
提案手法は,ビデオ監視アプリケーションにおける異常検出の最先端ソリューションと同等かそれ以上に動作することを示す。
論文 参考訳(メタデータ) (2020-07-03T08:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。