論文の概要: VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking
- arxiv url: http://arxiv.org/abs/2303.16727v2
- Date: Tue, 18 Apr 2023 11:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 17:17:25.616645
- Title: VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking
- Title(参考訳): VideoMAE V2:Dual Maskingで自動エンコーダをスケール
- Authors: Limin Wang, Bingkun Huang, Zhiyu Zhao, Zhan Tong, Yinan He, Yi Wang,
Yali Wang, Yu Qiao
- Abstract要約: Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
- 参考スコア(独自算出の注目度): 57.552798046137646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scale is the primary factor for building a powerful foundation model that
could well generalize to a variety of downstream tasks. However, it is still
challenging to train video foundation models with billions of parameters. This
paper shows that video masked autoencoder (VideoMAE) is a scalable and general
self-supervised pre-trainer for building video foundation models. We scale the
VideoMAE in both model and data with a core design. Specifically, we present a
dual masking strategy for efficient pre-training, with an encoder operating on
a subset of video tokens and a decoder processing another subset of video
tokens. Although VideoMAE is very efficient due to high masking ratio in
encoder, masking decoder can still further reduce the overall computational
cost. This enables the efficient pre-training of billion-level models in video.
We also use a progressive training paradigm that involves an initial
pre-training on a diverse multi-sourced unlabeled dataset, followed by a
post-pre-training on a mixed labeled dataset. Finally, we successfully train a
video ViT model with a billion parameters, which achieves a new
state-of-the-art performance on the datasets of Kinetics (90.0% on K400 and
89.9% on K600) and Something-Something (68.7% on V1 and 77.0% on V2). In
addition, we extensively verify the pre-trained video ViT models on a variety
of downstream tasks, demonstrating its effectiveness as a general video
representation learner. The code and model is available at
\url{https://github.com/OpenGVLab/VideoMAEv2}.
- Abstract(参考訳): スケールは、様々な下流タスクをうまく一般化できる強力な基盤モデルを構築するための主要な要因です。
しかし、数十億のパラメータを持つビデオ基礎モデルのトレーニングは依然として困難である。
本稿では,ビデオマスク付きオートエンコーダ(VideoMAE)が,ビデオファウンデーションモデル構築のための,スケーラブルで汎用的な自己指導型プレトレーニングであることを示す。
ビデオメイをモデルとデータの両方でコアデザインでスケールします。
具体的には,ビデオトークンのサブセットで動作するエンコーダと,ビデオトークンのサブセットを処理するデコーダを備えた,効果的な事前学習のための二重マスキング戦略を提案する。
エンコーダのマスキング比が高いため、ビデオMAEは非常に効率的であるが、マスキングデコーダは計算コストをさらに削減することができる。
これにより、ビデオ中の10億レベルのモデルの効率的な事前トレーニングが可能になる。
また、さまざまなマルチソースのラベル付きデータセットの初期トレーニングと、混合ラベル付きデータセットの事前トレーニングを含む、プログレッシブトレーニングパラダイムも使用しています。
最後に10億のパラメータを持つビデオvitモデルのトレーニングに成功し,k400では90.0%,k600では89.9%,v1では68.7%,v2では77.0%という,新たな最先端性能を実現しました。
さらに,様々な下流タスクで事前学習されたビデオvitモデルの検証を行い,一般的な映像表現学習者としての有効性を実証した。
コードとモデルは \url{https://github.com/OpenGVLab/VideoMAEv2} で公開されている。
関連論文リスト
- Asymmetric Masked Distillation for Pre-Training Small Foundation Models [52.56257450614992]
自己教師型基礎モデルは、マスク付きオートエンコーディングの事前学習パラダイムのおかげで、コンピュータビジョンにおいて大きな可能性を秘めている。
本稿では、下流タスクに効率的に適応できる比較的小さな視覚変換器モデルを事前学習することに焦点を当てる。
自動符号化による比較的小さなモデルの事前学習のための新しい非対称マスク蒸留(AMD)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-06T14:44:34Z) - Harvest Video Foundation Models via Efficient Post-Pretraining [67.30842563833185]
本稿では,画像から映像基盤モデルを抽出する効率的なフレームワークを提案する。
提案手法は,入力ビデオパッチをランダムにドロップし,プレトレーニング後の入力テキストをマスクアウトすることで,直感的に簡単である。
提案手法は,プレトレーニング済みの映像基盤モデルに匹敵する,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-30T14:06:16Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。