論文の概要: Motion-Guided Masking for Spatiotemporal Representation Learning
- arxiv url: http://arxiv.org/abs/2308.12962v1
- Date: Thu, 24 Aug 2023 17:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 12:44:21.198391
- Title: Motion-Guided Masking for Spatiotemporal Representation Learning
- Title(参考訳): 時空間表現学習のためのモーションガイドマスク
- Authors: David Fan, Jue Wang, Shuai Liao, Yi Zhu, Vimal Bhat, Hector
Santos-Villalobos, Rohith MV, Xinyu Li
- Abstract要約: 動きベクトルを利用して各マスクの位置を経時的に案内する動き誘導マスキングアルゴリズム(MGM)を提案する。
2つの挑戦的な大規模ビデオベンチマークでは、MGMにビデオMAEを装備し、従来の最先端の手法と比較して最大$1.3%の改善を実現した。
- 参考スコア(独自算出の注目度): 16.9547105658246
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Several recent works have directly extended the image masked autoencoder
(MAE) with random masking into video domain, achieving promising results.
However, unlike images, both spatial and temporal information are important for
video understanding. This suggests that the random masking strategy that is
inherited from the image MAE is less effective for video MAE. This motivates
the design of a novel masking algorithm that can more efficiently make use of
video saliency. Specifically, we propose a motion-guided masking algorithm
(MGM) which leverages motion vectors to guide the position of each mask over
time. Crucially, these motion-based correspondences can be directly obtained
from information stored in the compressed format of the video, which makes our
method efficient and scalable. On two challenging large-scale video benchmarks
(Kinetics-400 and Something-Something V2), we equip video MAE with our MGM and
achieve up to +$1.3\%$ improvement compared to previous state-of-the-art
methods. Additionally, our MGM achieves equivalent performance to previous
video MAE using up to $66\%$ fewer training epochs. Lastly, we show that MGM
generalizes better to downstream transfer learning and domain adaptation tasks
on the UCF101, HMDB51, and Diving48 datasets, achieving up to +$4.9\%$
improvement compared to baseline methods.
- Abstract(参考訳): 近年、画像マスク付きオートエンコーダ(mae)をランダムマスキングでビデオドメインに拡張し、有望な結果が得られた。
しかし,画像と異なり,空間情報と時間情報の両方が映像理解に重要である。
これは、画像MAEから継承されたランダムマスキング戦略は、ビデオMAEでは効果が低いことを示唆している。
これは、より効率的にビデオのサリエンシを利用する新しいマスキングアルゴリズムの設計を動機付けている。
具体的には、動きベクトルを利用して各マスクの位置を経時的に案内する動き誘導マスキングアルゴリズム(MGM)を提案する。
ビデオの圧縮フォーマットに格納された情報から,これらの動作に基づく対応が直接得られることが重要であり,提案手法の効率性と拡張性が期待できる。
2つの挑戦的な大規模ビデオベンチマーク(Kinetics-400とSomething V2)では、MGMにビデオMAEを装備し、従来の最先端手法と比較して最大$1.3\%の改善を実現している。
さらに、当社のmgmは、トレーニング期間を最大66%削減することで、以前のビデオmaeと同等のパフォーマンスを実現しています。
最後に, MGMは, UCF101, HMDB51, Diving48データセットにおいて, ダウンストリーム転送学習やドメイン適応タスクを一般化し, ベースライン法と比較して最大$4.9 %の改善を実現していることを示す。
関連論文リスト
- Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - MGMAE: Motion Guided Masking for Video Masked Autoencoding [34.80832206608387]
時間的冗長性は、ビデオMAEのマスキング比が高く、マスキング戦略をカスタマイズしている。
我々の動き誘導マスクは、時間的一貫したマスキングボリュームを構築するために、運動情報を明示的に組み込む。
我々は、Something V2 と Kinetics-400 のデータセット上で実験を行い、MGMAE が元の VideoMAE よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-21T15:39:41Z) - DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking
Tasks [76.24996889649744]
Masked Autoencoder (MAE) Pretraining on video for matching-based downstream task, including visual object tracking (VOT) and video object segmentation (VOS)
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
本モデルは,9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに,最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Self-supervised Video Representation Learning with Motion-Aware Masked
Autoencoders [46.38458873424361]
近年,Masked Autoencoders (MAE) が自己教師型表現学習者として登場している。
本研究では、モーションアウェアの変種であるMotionMAEを紹介する。
本モデルは,時間とともに対応する動き構造情報を付加的に予測するように設計されている。
論文 参考訳(メタデータ) (2022-10-09T03:22:15Z) - Masked Autoencoders As Spatiotemporal Learners [60.83955416682043]
本稿では,ビデオからの時間的表現学習へのMasked Autoencoders(MAE)の拡張を概念的にシンプルに検討する。
ビデオ中の時空パッチをランダムにマスクアウトし、オートエンコーダを学習してピクセルで再構成する。
最適なマスキング比は90%(画像上では75%)であり、この比がデータの情報冗長性と関連しているという仮説を支持する。
論文 参考訳(メタデータ) (2022-05-18T17:59:59Z) - Self-Supervised Video Object Segmentation by Motion-Aware Mask
Propagation [52.8407961172098]
半教師付きビデオオブジェクトセグメンテーションのための自己教師付きモーションアウェアマッチング法を作成した。
従来の自己教師型手法と比較して,MAMPはより高度な一般化能力を持つ最先端性能を実現していることを示す。
論文 参考訳(メタデータ) (2021-07-27T03:07:56Z) - Space-Time Crop & Attend: Improving Cross-modal Video Representation
Learning [88.71867887257274]
トリミングのような空間拡張はビデオでもうまく機能するが、以前の実装ではうまく機能するのに十分な規模でこれを行うことができなかった。
そこで本研究ではまず,このような拡張をより効率的にシミュレートする手法であるFeature Cropについて紹介する。
第2に,ナイーブ平均プーリングとは対照的に,変圧器に基づく注意性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-03-18T12:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。