論文の概要: Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning
- arxiv url: http://arxiv.org/abs/2212.04500v1
- Date: Thu, 8 Dec 2022 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 16:00:42.493070
- Title: Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning
- Title(参考訳): masked video distillation: 自己教師付き映像表現学習のための masked feature modeling の再検討
- Authors: Rui Wang and Dongdong Chen and Zuxuan Wu and Yinpeng Chen and Xiyang
Dai and Mengchen Liu and Lu Yuan and Yu-Gang Jiang
- Abstract要約: Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
- 参考スコア(独自算出の注目度): 123.63301596019522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benefiting from masked visual modeling, self-supervised video representation
learning has achieved remarkable progress. However, existing methods focus on
learning representations from scratch through reconstructing low-level features
like raw pixel RGB values. In this paper, we propose masked video distillation
(MVD), a simple yet effective two-stage masked feature modeling framework for
video representation learning: firstly we pretrain an image (or video) model by
recovering low-level features of masked patches, then we use the resulting
features as targets for masked feature modeling. For the choice of teacher
models, we observe that students taught by video teachers perform better on
temporally-heavy video tasks, while image teachers transfer stronger spatial
representations for spatially-heavy video tasks. Visualization analysis also
indicates different teachers produce different learned patterns for students.
Motivated by this observation, to leverage the advantage of different teachers,
we design a spatial-temporal co-teaching method for MVD. Specifically, we
distill student models from both video teachers and image teachers by masked
feature modeling. Extensive experimental results demonstrate that video
transformers pretrained with spatial-temporal co-teaching outperform models
distilled with a single teacher on a multitude of video datasets. Our MVD with
vanilla ViT achieves state-of-the-art performance compared with previous
supervised or self-supervised methods on several challenging video downstream
tasks. For example, with the ViT-Large model, our MVD achieves 86.4% and 75.9%
Top-1 accuracy on Kinetics-400 and Something-Something-v2, outperforming
VideoMAE by 1.2% and 1.6% respectively. Code will be available at
\url{https://github.com/ruiwang2021/mvd}.
- Abstract(参考訳): マスク付きビジュアルモデリングの恩恵を受け、自己教師付きビデオ表現学習は著しく進歩した。
しかし、既存の手法は、生のピクセルRGB値のような低レベルの特徴を再構築することで、ゼロから表現を学習することに焦点を当てている。
本稿では,ビデオ表現学習のためのシンプルで効果的な2段階マスク付き特徴モデリングフレームワークであるマスク付きビデオ蒸留(MVD)を提案し,まず,マスク付きパッチの低レベル特徴を回復して画像(またはビデオ)モデルを事前訓練し,その結果をマスク付き特徴モデリングのターゲットとして利用する。
教師モデルを選択するためには,映像教師が時間重映像タスクにおいて,映像教師が教える生徒がより優れており,画像教師は空間重映像タスクに対してより強い空間表現を伝達する。
可視化分析は、異なる教師が生徒のために異なる学習パターンを作成することも示している。
この観察により、異なる教師の利点を活用するために、MVDのための時空間協調学習法を設計する。
具体的には,映像教師とイメージ教師の両方から,マスク付き特徴モデルを用いて学生モデルを抽出する。
広範な実験結果から,ビデオトランスフォーマは,複数のビデオデータセット上で1人の教師と蒸留した時空間共学習モデルよりも優れていた。
バニラVITを用いたMVDは,いくつかの課題のビデオ下流タスクにおいて,従来の教師付きあるいは自己監督型の手法と比較して,最先端のパフォーマンスを実現している。
例えば、vit-largeモデルでは、mvd は kinetics-400 と something-something-v2 で 86.4% と 75.9% のtop-1精度を達成し、videomae を1.2% と 1.6% で上回った。
コードは \url{https://github.com/ruiwang2021/mvd}で入手できる。
関連論文リスト
- Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - ViC-MAE: Self-Supervised Representation Learning from Images and Video with Contrastive Masked Autoencoders [11.727612242016871]
ViC-MAEはMasked AutoEncoders(MAE)とコントラスト学習を組み合わせたモデルである。
ViC-MAEで学習した視覚表現は、映像分類と画像分類の両方によく当てはまる。
論文 参考訳(メタデータ) (2023-03-21T16:33:40Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Self-supervised Video Representation Learning with Motion-Aware Masked
Autoencoders [46.38458873424361]
近年,Masked Autoencoders (MAE) が自己教師型表現学習者として登場している。
本研究では、モーションアウェアの変種であるMotionMAEを紹介する。
本モデルは,時間とともに対応する動き構造情報を付加的に予測するように設計されている。
論文 参考訳(メタデータ) (2022-10-09T03:22:15Z) - Exploring The Role of Mean Teachers in Self-supervised Masked
Auto-Encoders [64.03000385267339]
マスク付き画像モデリング(MIM)は視覚変換器を用いた視覚表現の自己教師型学習(SSL)の一般的な戦略となっている。
簡単なSSL方式であるRC-MAE(Restruction-Consistent Masked Auto-Encoder)を提案する。
RC-MAEは、事前学習中に最先端の自己蒸留法よりも早く収束し、メモリ使用量の削減を必要とする。
論文 参考訳(メタデータ) (2022-10-05T08:08:55Z) - BEVT: BERT Pretraining of Video Transformers [89.08460834954161]
本稿では,映像表現学習を空間表現学習と時間ダイナミクス学習に分離するBEVTを紹介する。
我々は、BEVTが非常に有望な結果を得る3つの挑戦的なビデオベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-12-02T18:59:59Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。