論文の概要: MGMAE: Motion Guided Masking for Video Masked Autoencoding
- arxiv url: http://arxiv.org/abs/2308.10794v1
- Date: Mon, 21 Aug 2023 15:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 12:49:30.212040
- Title: MGMAE: Motion Guided Masking for Video Masked Autoencoding
- Title(参考訳): MGMAE:動画自動エンコーディングのためのモーションガイド型マスキング
- Authors: Bingkun Huang, Zhiyu Zhao, Guozhen Zhang, Yu Qiao and Limin Wang
- Abstract要約: 時間的冗長性は、ビデオMAEのマスキング比が高く、マスキング戦略をカスタマイズしている。
我々の動き誘導マスクは、時間的一貫したマスキングボリュームを構築するために、運動情報を明示的に組み込む。
我々は、Something V2 と Kinetics-400 のデータセット上で実験を行い、MGMAE が元の VideoMAE よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 34.80832206608387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked autoencoding has shown excellent performance on self-supervised video
representation learning. Temporal redundancy has led to a high masking ratio
and customized masking strategy in VideoMAE. In this paper, we aim to further
improve the performance of video masked autoencoding by introducing a motion
guided masking strategy. Our key insight is that motion is a general and unique
prior in video, which should be taken into account during masked pre-training.
Our motion guided masking explicitly incorporates motion information to build
temporal consistent masking volume. Based on this masking volume, we can track
the unmasked tokens in time and sample a set of temporal consistent cubes from
videos. These temporal aligned unmasked tokens will further relieve the
information leakage issue in time and encourage the MGMAE to learn more useful
structure information. We implement our MGMAE with an online efficient optical
flow estimator and backward masking map warping strategy. We perform
experiments on the datasets of Something-Something V2 and Kinetics-400,
demonstrating the superior performance of our MGMAE to the original VideoMAE.
In addition, we provide the visualization analysis to illustrate that our MGMAE
can sample temporal consistent cubes in a motion-adaptive manner for more
effective video pre-training.
- Abstract(参考訳): masked autoencodingは自己教師付きビデオ表現学習において優れた性能を示している。
時間的冗長性は、ビデオMAEのマスキング比が高く、マスキング戦略をカスタマイズしている。
本稿では,モーションガイド型マスキング戦略を導入することで,映像の自動符号化の性能向上を図る。
私たちの重要な洞察は、モーションはビデオにおける一般的でユニークな事前学習であり、マスク付きプレトレーニング中に考慮すべきであるということです。
我々の動き誘導マスクは、時間的一貫したマスキングボリュームを構築するために、運動情報を明示的に組み込む。
このマスキング量に基づいて、未加工のトークンを時間内に追跡し、ビデオから時間的一貫したキューブのセットをサンプリングすることができる。
これらの時間調整されたアンマスクトークンは、情報漏洩問題をさらに緩和し、mgmaeにより有用な構造情報を学ぶよう促す。
我々は,オンライン効率的な光フロー推定器と後方マスキングマップウォーピング戦略を用いてmgmaeを実装した。
我々は、Something V2 と Kinetics-400 のデータセット上で実験を行い、MGMAE が元の VideoMAE よりも優れていることを示す。
さらに,MGMAEが時間的一貫した立方体をモーション適応的にサンプリングし,より効果的なビデオ事前学習を実現するための可視化分析を行った。
関連論文リスト
- FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing [22.876290778155514]
クロスアテンションマスクはビデオ編集に有効であるが、ぼやけや点滅などのアーティファクトを導入することができる。
本稿では,特定の映像編集作業に適した最適なマスクを選択する手法であるFreeMaskを提案する。
提案手法は,最先端手法と比較して,意味的忠実度,時間的整合性,品質の編集に優れる。
論文 参考訳(メタデータ) (2024-09-30T17:01:26Z) - Text-Guided Video Masked Autoencoder [12.321239366215426]
本稿では,ペア字幕に高い対応で映像領域をマスキングする新しいテキスト誘導マスキングアルゴリズム(TGM)を提案する。
既存のマスキングアルゴリズム、統一MAE、マスキングビデオテキストコントラスト学習により、純粋なMAEと比較して下流性能が向上することを示す。
論文 参考訳(メタデータ) (2024-08-01T17:58:19Z) - Efficient Image Pre-Training with Siamese Cropped Masked Autoencoders [89.12558126877532]
そこで我々は,SiamMAE が導入した Siamese プレトレーニングの代替手法である CropMAE を提案する。
本手法では, ビデオから抽出した従来のフレームの対から切り離して, 同一画像から抽出した画像の対を別々に抽出する。
CropMAEは、これまでで最も高いマスキング比(98.5%)を達成し、2つの目に見えるパッチのみを使用して画像の再構成を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:04:19Z) - Motion-Guided Masking for Spatiotemporal Representation Learning [16.9547105658246]
動きベクトルを利用して各マスクの位置を経時的に案内する動き誘導マスキングアルゴリズム(MGM)を提案する。
2つの挑戦的な大規模ビデオベンチマークでは、MGMにビデオMAEを装備し、従来の最先端の手法と比較して最大$1.3%の改善を実現した。
論文 参考訳(メタデータ) (2023-08-24T17:58:04Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Self-supervised Video Representation Learning with Motion-Aware Masked
Autoencoders [46.38458873424361]
近年,Masked Autoencoders (MAE) が自己教師型表現学習者として登場している。
本研究では、モーションアウェアの変種であるMotionMAEを紹介する。
本モデルは,時間とともに対応する動き構造情報を付加的に予測するように設計されている。
論文 参考訳(メタデータ) (2022-10-09T03:22:15Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Masked Autoencoders As Spatiotemporal Learners [60.83955416682043]
本稿では,ビデオからの時間的表現学習へのMasked Autoencoders(MAE)の拡張を概念的にシンプルに検討する。
ビデオ中の時空パッチをランダムにマスクアウトし、オートエンコーダを学習してピクセルで再構成する。
最適なマスキング比は90%(画像上では75%)であり、この比がデータの情報冗長性と関連しているという仮説を支持する。
論文 参考訳(メタデータ) (2022-05-18T17:59:59Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。