論文の概要: Self-supervised Video Representation Learning with Motion-Aware Masked
Autoencoders
- arxiv url: http://arxiv.org/abs/2210.04154v1
- Date: Sun, 9 Oct 2022 03:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 17:30:22.172139
- Title: Self-supervised Video Representation Learning with Motion-Aware Masked
Autoencoders
- Title(参考訳): motion-aware masked autoencoderを用いた自己教師付き映像表現学習
- Authors: Haosen Yang, Deng Huang, Bin Wen, Jiannan Wu, Hongxun Yao, Yi Jiang,
Xiatian Zhu, Zehuan Yuan
- Abstract要約: 近年,Masked Autoencoders (MAE) が自己教師型表現学習者として登場している。
本研究では、モーションアウェアの変種であるMotionMAEを紹介する。
本モデルは,時間とともに対応する動き構造情報を付加的に予測するように設計されている。
- 参考スコア(独自算出の注目度): 46.38458873424361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked autoencoders (MAEs) have emerged recently as art self-supervised
spatiotemporal representation learners. Inheriting from the image counterparts,
however, existing video MAEs still focus largely on static appearance learning
whilst are limited in learning dynamic temporal information hence less
effective for video downstream tasks. To resolve this drawback, in this work we
present a motion-aware variant -- MotionMAE. Apart from learning to reconstruct
individual masked patches of video frames, our model is designed to
additionally predict the corresponding motion structure information over time.
This motion information is available at the temporal difference of nearby
frames. As a result, our model can extract effectively both static appearance
and dynamic motion spontaneously, leading to superior spatiotemporal
representation learning capability. Extensive experiments show that our
MotionMAE outperforms significantly both supervised learning baseline and
state-of-the-art MAE alternatives, under both domain-specific and
domain-generic pretraining-then-finetuning settings. In particular, when using
ViT-B as the backbone our MotionMAE surpasses the prior art model by a margin
of 1.2% on Something-Something V2 and 3.2% on UCF101 in domain-specific
pretraining setting. Encouragingly, it also surpasses the competing MAEs by a
large margin of over 3% on the challenging video object segmentation task. The
code is available at https://github.com/happy-hsy/MotionMAE.
- Abstract(参考訳): マスク付きオートエンコーダ (MAE) は, 最近, 美術自己監督型時空間表現学習機として出現している。
しかし、既存のビデオMAEは画像と比べ、静的な外観学習に重点を置いているのに対し、動的時間的情報学習には制限があるため、映像下流タスクでは効果が低い。
この欠点を解決するため,本研究ではモーションアウェア型モーションメイを提案する。
ビデオフレームの個々のマスクパッチを再構築する学習を別にすれば,時間とともに対応する動作構造情報を予測できるように設計されている。
この動き情報は、近くのフレームの時間差で利用できる。
その結果,静的な外見と動的動きを自発的に抽出することができ,時空間表現学習能力に優れることがわかった。
広範な実験により、motionmaeは、ドメイン固有およびドメインジェネリック事前学習-then-finetuning設定の両方において、教師付き学習ベースラインと最先端のmae代替品の両方よりも大幅に優れています。
特に、VT-Bをバックボーンとして使用する場合、MotionMAEは、ドメイン固有の事前トレーニング環境で、Somes-Something V2で1.2%、UCF101で3.2%のマージンで、従来のアートモデルを上回る。
さらに、挑戦的なビデオオブジェクトセグメンテーションタスクにおいて、競合するMAEを3%以上の大きなマージンで上回っている。
コードはhttps://github.com/happy-hsy/motionmaeで入手できる。
関連論文リスト
- DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking
Tasks [76.24996889649744]
Masked Autoencoder (MAE) Pretraining on video for matching-based downstream task, including visual object tracking (VOT) and video object segmentation (VOS)
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
本モデルは,9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに,最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - Masked Video Distillation: Rethinking Masked Feature Modeling for
Self-supervised Video Representation Learning [123.63301596019522]
Masked Video distillation (MVD) は、ビデオ表現学習のための単純な2段階マスク付き特徴モデリングフレームワークである。
教師モデルを選択するために,ビデオ教師が教える生徒が時間重のビデオタスクにおいて,より優れたパフォーマンスを発揮することを観察する。
我々は,異なる教師の利点を活用するために,MVDのための時空間協調学習法を設計する。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。