論文の概要: VideoMAE: Masked Autoencoders are Data-Efficient Learners for
Self-Supervised Video Pre-Training
- arxiv url: http://arxiv.org/abs/2203.12602v1
- Date: Wed, 23 Mar 2022 17:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 16:21:50.157967
- Title: VideoMAE: Masked Autoencoders are Data-Efficient Learners for
Self-Supervised Video Pre-Training
- Title(参考訳): VideoMAE:Masked Autoencodersは自己監督型ビデオ事前学習のためのデータ効率のよい学習者
- Authors: Zhan Tong, Yibing Song, Jue Wang, Limin Wang
- Abstract要約: 我々は、ビデオマスク付きオートエンコーダ(VideoMAE)が、自己教師型ビデオ事前学習(SSVP)のためのデータ効率の学習者であることを示す。
我々は、最新のImageMAEに触発され、カスタマイズされたビデオチューブマスキングと再構築を提案する。
ビデオMAEとバニラVTのバックボーンはKinect-400で83.9%、Something V2で75.3%、UCF101で90.8%、HMDB51で61.1%を達成することができる。
- 参考スコア(独自算出の注目度): 49.68815656405452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-training video transformers on extra large-scale datasets is generally
required to achieve premier performance on relatively small datasets. In this
paper, we show that video masked autoencoders (VideoMAE) are data-efficient
learners for self-supervised video pre-training (SSVP). We are inspired by the
recent ImageMAE and propose customized video tube masking and reconstruction.
These simple designs turn out to be effective for overcoming information
leakage caused by the temporal correlation during video reconstruction. We
obtain three important findings on SSVP: (1) An extremely high proportion of
masking ratio (i.e., 90% to 95%) still yields favorable performance of
VideoMAE. The temporally redundant video content enables higher masking ratio
than that of images. (2) VideoMAE achieves impressive results on very small
datasets (i.e., around 3k-4k videos) without using any extra data. This is
partially ascribed to the challenging task of video reconstruction to enforce
high-level structure learning. (3) VideoMAE shows that data quality is more
important than data quantity for SSVP. Domain shift between pre-training and
target datasets are important issues in SSVP. Notably, our VideoMAE with the
vanilla ViT backbone can achieve 83.9% on Kinects-400, 75.3% on
Something-Something V2, 90.8% on UCF101, and 61.1% on HMDB51 without using any
extra data. Code will be released at https://github.com/MCG-NJU/VideoMAE.
- Abstract(参考訳): 大規模データセットでの事前学習ビデオトランスフォーマーは、比較的小さなデータセットでのプレミアパフォーマンスを達成するために一般的に必要となる。
本稿では,ビデオマスク付きオートエンコーダ(VideoMAE)が,自己教師付きビデオ事前学習(SSVP)のためのデータ効率の高い学習者であることを示す。
我々は、最新のImageMAEに触発され、カスタマイズされたビデオチューブマスキングと再構築を提案する。
これらの単純な設計は,映像再構成時の時間的相関による情報漏洩の克服に有効であることが判明した。
その結果,(1)マスキング比(90%から95%)の極めて高い割合がビデオメイの良好な性能をもたらすことがわかった。
時間的冗長なビデオコンテンツは、画像よりもマスキング比が高い。
2) VideoMAEは、余分なデータを用いることなく、非常に小さなデータセット(約3k-4kビデオ)で印象的な結果が得られる。
これは、高レベルの構造学習を強制するビデオ再構成の難題に部分的に説明されている。
(3) SSVPのデータ量よりもデータ品質が重要であることを示す。
事前トレーニングとターゲットデータセットのドメインシフトは、SSVPで重要な問題である。
特に、バニラVTバックボーン付きビデオMAEはKinect-400で83.9%、Something V2で75.3%、UCF101で90.8%、HMDB51で61.1%を達成した。
コードはhttps://github.com/MCG-NJU/VideoMAEで公開される。
関連論文リスト
- ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning [29.620990627792906]
本稿では,新たな自己教師付きビデオ表現学習フレームワークであるARVideoを提案する。
大規模な実験は、自己教師付きビデオ表現学習の効果的なパラダイムとしてARVideoを確立する。
論文 参考訳(メタデータ) (2024-05-24T02:29:03Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - Creating a Large-scale Synthetic Dataset for Human Activity Recognition [0.8250374560598496]
ビデオの合成データセットを生成するために3Dレンダリングツールを使用し、これらのビデオで訓練された分類器が実際のビデオに一般化可能であることを示す。
ビデオ上で事前学習したI3Dモデルを微調整し、3つのクラスでHMDB51データセット上で73%の精度を達成できることを確認した。
論文 参考訳(メタデータ) (2020-07-21T22:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。