論文の概要: Masked Autoencoders As Spatiotemporal Learners
- arxiv url: http://arxiv.org/abs/2205.09113v1
- Date: Wed, 18 May 2022 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 12:47:57.791209
- Title: Masked Autoencoders As Spatiotemporal Learners
- Title(参考訳): 時空間学習者としてのマスケオートエンコーダ
- Authors: Christoph Feichtenhofer, Haoqi Fan, Yanghao Li, Kaiming He
- Abstract要約: 本稿では,ビデオからの時間的表現学習へのMasked Autoencoders(MAE)の拡張を概念的にシンプルに検討する。
ビデオ中の時空パッチをランダムにマスクアウトし、オートエンコーダを学習してピクセルで再構成する。
最適なマスキング比は90%(画像上では75%)であり、この比がデータの情報冗長性と関連しているという仮説を支持する。
- 参考スコア(独自算出の注目度): 60.83955416682043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies a conceptually simple extension of Masked Autoencoders
(MAE) to spatiotemporal representation learning from videos. We randomly mask
out spacetime patches in videos and learn an autoencoder to reconstruct them in
pixels. Interestingly, we show that our MAE method can learn strong
representations with almost no inductive bias on spacetime (only except for
patch and positional embeddings), and spacetime-agnostic random masking
performs the best. We observe that the optimal masking ratio is as high as 90%
(vs. 75% on images), supporting the hypothesis that this ratio is related to
information redundancy of the data. A high masking ratio leads to a large
speedup, e.g., > 4x in wall-clock time or even more. We report competitive
results on several challenging video datasets using vanilla Vision
Transformers. We observe that MAE can outperform supervised pre-training by
large margins. We further report encouraging results of training on real-world,
uncurated Instagram data. Our study suggests that the general framework of
masked autoencoding (BERT, MAE, etc.) can be a unified methodology for
representation learning with minimal domain knowledge.
- Abstract(参考訳): 本稿では,ビデオからの時空間表現学習のためのMasked Autoencoders(MAE)の概念的簡易拡張について検討する。
ビデオの時空パッチをランダムにマスクし、オートエンコーダを学習してピクセルに再構成します。
興味深いことに、我々のMAE法は、(パッチや位置埋め込みを除いて)時空にほとんど帰納バイアスのない強い表現を学習でき、時空に依存しないランダムマスキングが最善であることを示す。
最適なマスキング比は90%(画像上では75%)であり、この比はデータの冗長性に関連しているという仮説を裏付けるものである。
高いマスキング比は、例えば、壁時計時間に4倍以上のスピードアップをもたらす。
我々はバニラビジョントランスフォーマを用いたいくつかの挑戦的ビデオデータセットにおける競合結果について報告する。
我々はmaeが教師付き事前訓練を大きなマージンで上回ることを観察する。
さらに、実世界の未計算Instagramデータのトレーニング結果を奨励する。
本研究は,マスク付き自動符号化(BERT, MAEなど)の一般的な枠組みが,最小限のドメイン知識で表現学習を行うための統一手法であることを示す。
関連論文リスト
- Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - Motion-Guided Masking for Spatiotemporal Representation Learning [16.9547105658246]
動きベクトルを利用して各マスクの位置を経時的に案内する動き誘導マスキングアルゴリズム(MGM)を提案する。
2つの挑戦的な大規模ビデオベンチマークでは、MGMにビデオMAEを装備し、従来の最先端の手法と比較して最大$1.3%の改善を実現した。
論文 参考訳(メタデータ) (2023-08-24T17:58:04Z) - MGMAE: Motion Guided Masking for Video Masked Autoencoding [34.80832206608387]
時間的冗長性は、ビデオMAEのマスキング比が高く、マスキング戦略をカスタマイズしている。
我々の動き誘導マスクは、時間的一貫したマスキングボリュームを構築するために、運動情報を明示的に組み込む。
我々は、Something V2 と Kinetics-400 のデータセット上で実験を行い、MGMAE が元の VideoMAE よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-21T15:39:41Z) - DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking
Tasks [76.24996889649744]
Masked Autoencoder (MAE) Pretraining on video for matching-based downstream task, including visual object tracking (VOT) and video object segmentation (VOS)
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
本モデルは,9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに,最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。