論文の概要: Long-Short Temporal Contrastive Learning of Video Transformers
- arxiv url: http://arxiv.org/abs/2106.09212v1
- Date: Thu, 17 Jun 2021 02:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 16:12:41.308782
- Title: Long-Short Temporal Contrastive Learning of Video Transformers
- Title(参考訳): ビデオトランスフォーマの長短時間コントラスト学習
- Authors: Jue Wang, Gedas Bertasius, Du Tran, Lorenzo Torresani
- Abstract要約: ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
- 参考スコア(独自算出の注目度): 62.71874976426988
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video transformers have recently emerged as a competitive alternative to 3D
CNNs for video understanding. However, due to their large number of parameters
and reduced inductive biases, these models require supervised pretraining on
large-scale image datasets to achieve top performance. In this paper, we
empirically demonstrate that self-supervised pretraining of video transformers
on video-only datasets can lead to action recognition results that are on par
or better than those obtained with supervised pretraining on large-scale image
datasets, even massive ones such as ImageNet-21K. Since transformer-based
models are effective at capturing dependencies over extended temporal spans, we
propose a simple learning procedure that forces the model to match a long-term
view to a short-term view of the same video. Our approach, named Long-Short
Temporal Contrastive Learning (LSTCL), enables video transformers to learn an
effective clip-level representation by predicting temporal context captured
from a longer temporal extent. To demonstrate the generality of our findings,
we implement and validate our approach under three different self-supervised
contrastive learning frameworks (MoCo v3, BYOL, SimSiam) using two distinct
video-transformer architectures, including an improved variant of the Swin
Transformer augmented with space-time attention. We conduct a thorough ablation
study and show that LSTCL achieves competitive performance on multiple video
benchmarks and represents a convincing alternative to supervised image-based
pretraining.
- Abstract(参考訳): ビデオトランスフォーマーは最近、ビデオ理解のための3D CNNの代替として登場した。
しかし、パラメータの多さと誘導バイアスの低減により、これらのモデルは、最高のパフォーマンスを達成するために、大規模画像データセットの教師付き事前トレーニングを必要とする。
本稿では,ビデオのみのデータセット上でのビデオトランスフォーマーの自己教師あり事前学習が,imagenet-21kのような大規模画像データセット上での教師付き事前学習と同等以上の動作認識結果をもたらすことを実証的に示す。
変換器をベースとしたモデルでは,時間的間隔の延長による依存性の把握が効果的であるため,モデルに長期的視点を一致させる単純な学習手順を提案する。
提案手法はlong-short temporal contrastive learning (lstcl) と呼ばれ,ビデオトランスフォーマはより長い時間的範囲から捉えた時間的文脈を予測することで,効果的なクリップレベルの表現を学習できる。
この結果の汎用性を示すために,我々は,swinトランスフォーマーの改良版を含む2つの異なるビデオトランスフォーマーアーキテクチャを用いて,3つの異なる自己教師付きコントラスト学習フレームワーク (moco v3, byol, simsiam) の実装と検証を行った。
我々は,複数のビデオベンチマークにおいてLSTCLが競合性能を達成し,教師付き画像ベース事前学習の有力な代替手段であることを示す。
関連論文リスト
- F3-Pruning: A Training-Free and Generalized Pruning Strategy towards
Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。
本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。
古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-06T12:34:47Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Self-supervised and Weakly Supervised Contrastive Learning for
Frame-wise Action Representations [26.09611987412578]
本稿では,フレームワイドな行動表現を自己監督的あるいは弱監督的に学習するための,コントラッシブ・アクション表現学習(CARL)の枠組みを紹介する。
具体的には,空間的コンテキストと時間的コンテキストの両方を考慮した,シンプルだが効果的なビデオエンコーダを提案する。
提案手法は,下流の微細な動作分類とより高速な推論において,従来の最先端技術よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-06T16:42:22Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - BEVT: BERT Pretraining of Video Transformers [89.08460834954161]
本稿では,映像表現学習を空間表現学習と時間ダイナミクス学習に分離するBEVTを紹介する。
我々は、BEVTが非常に有望な結果を得る3つの挑戦的なビデオベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-12-02T18:59:59Z) - Shifted Chunk Transformer for Spatio-Temporal Representational Learning [24.361059477031162]
我々は、純粋な自己注意ブロックを持つシフトチャンク変換器を構築する。
このトランスフォーマーは、小さなパッチからグローバルなビデオクリップまで、階層的な時間的特徴を学習することができる。
Kinetics, Kinetics-600, UCF101, HMDB51の最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2021-08-26T04:34:33Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。