論文の概要: Extending Video Masked Autoencoders to 128 frames
- arxiv url: http://arxiv.org/abs/2411.13683v1
- Date: Wed, 20 Nov 2024 20:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:20.272889
- Title: Extending Video Masked Autoencoders to 128 frames
- Title(参考訳): 動画自動エンコーダを128フレームに拡張
- Authors: Nitesh Bharadwaj Gundavarapu, Luke Friedman, Raghav Goyal, Chaitra Hegde, Eirikur Agustsson, Sagar M. Waghmare, Mikhail Sirotenko, Ming-Hsuan Yang, Tobias Weyand, Boqing Gong, Leonid Sigal,
- Abstract要約: ビデオ理解は、自己指導型事前学習目標による強力なパフォーマンスを示す最近のビデオファンデーションモデルにおいて大きな進歩をみせている。
しかし、MAE事前学習を利用した以前の研究の大部分は、ハードウェアメモリと、メモリ集約型の自己保持復号化によるビデオ長の低下により、比較的短いビデオ表現(長さ16 / 32 フレーム)に重点を置いていた。
より長いビデオシーケンス(128フレーム)のトレーニングが可能で、より一般的なランダムよりも優れたパフォーマンスが得られるトークンの優先順位付けのための効果的な戦略を提案する。
- 参考スコア(独自算出の注目度): 75.01251612160829
- License:
- Abstract: Video understanding has witnessed significant progress with recent video foundation models demonstrating strong performance owing to self-supervised pre-training objectives; Masked Autoencoders (MAE) being the design of choice. Nevertheless, the majority of prior works that leverage MAE pre-training have focused on relatively short video representations (16 / 32 frames in length) largely due to hardware memory and compute limitations that scale poorly with video length due to the dense memory-intensive self-attention decoding. One natural strategy to address these challenges is to subsample tokens to reconstruct during decoding (or decoder masking). In this work, we propose an effective strategy for prioritizing tokens which allows training on longer video sequences (128 frames) and gets better performance than, more typical, random and uniform masking strategies. The core of our approach is an adaptive decoder masking strategy that prioritizes the most important tokens and uses quantized tokens as reconstruction objectives. Our adaptive strategy leverages a powerful MAGVIT-based tokenizer that jointly learns the tokens and their priority. We validate our design choices through exhaustive ablations and observe improved performance of the resulting long-video (128 frames) encoders over short-video (32 frames) counterparts. With our long-video masked autoencoder (LVMAE) strategy, we surpass state-of-the-art on Diving48 by 3.9 points and EPIC-Kitchens-100 verb classification by 2.5 points while relying on a simple core architecture and video-only pre-training (unlike some of the prior works that require millions of labeled video-text pairs or specialized encoders).
- Abstract(参考訳): ビデオ理解は、自己指導型事前学習目標による強力なパフォーマンスを示す最近のビデオファンデーションモデルにおいて大きな進歩をみせた。
にもかかわらず、MAE事前学習を利用した以前の研究の大部分は、ハードウェアメモリと、メモリ集約型の自己保持復号化によるビデオ長の低下による、比較的短いビデオ表現(長さ16 / 32 フレーム)に重点を置いている。
これらの課題に対処するための自然な戦略は、デコード(あるいはデコーダマスキング)中にトークンをサブサンプリングして再構築することだ。
本研究では,より長いビデオシーケンス(128フレーム)のトレーニングを可能にするトークンの優先順位付けに有効な手法を提案する。
我々のアプローチの中核は適応型デコーダマスキング戦略であり、最も重要なトークンを優先順位付けし、再構成目的として量子化トークンを使用する。
我々の適応戦略は、強力なMAGVITベースのトークンライザを活用し、トークンとその優先順位を共同で学習する。
提案する設計選択は、徹底的な改善を通じて検証し、その結果の長ビデオ(128フレーム)エンコーダの短ビデオ(32フレーム)に対する性能改善を観察する。
LVMAE(Long-video masked autoencoder)戦略では、Diving48の最先端を3.9ポイント、EPIC-Kitchens-100の動詞分類を2.5ポイント、単純なコアアーキテクチャとビデオのみの事前トレーニング(数百万のラベル付きビデオテキストペアや特殊なエンコーダを必要とする以前の作品とは違って)に依存しています。
関連論文リスト
- Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction [93.69757398746017]
CoordTokは、座標ベースの表現から入力ビデオの対応するパッチへのマッピングを学ぶビデオトークンである。
CoordTokは、ビデオを分解された三面体表現にエンコードし、ランダムにサンプリングされた$(x,y,t)$座標に対応するパッチを再構築する。
論文 参考訳(メタデータ) (2024-11-22T06:50:44Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - SMAUG: Sparse Masked Autoencoder for Efficient Video-Language
Pre-training [25.256564703540953]
我々は,ビデオ言語モデルのための効率的な事前学習フレームワークであるSMAUGを開発した。
マスキング戦略は視覚的モダリティとテキスト的モダリティの両方を考慮し、より優れたクロスモーダルアライメントを提供する。
時空トークンスペーシフィケーションモジュールは、事前トレーニングのための「重要な」空間領域と時間フレームのみを選択する。
論文 参考訳(メタデータ) (2022-11-21T13:34:34Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - MAE-AST: Masked Autoencoding Audio Spectrogram Transformer [11.814012909512307]
本稿では,音声と音声の分類のための音声スペクトル変換器(SSAST)モデルに対する簡易かつ強力な改良を提案する。
我々は、SSASTが事前トレーニング中に非常に高いマスキング比(75%)を使用するという知見を活用する。
MAEライクな事前トレーニングは,バニラSSASTよりも3倍のスピードアップと2倍のメモリ使用量の削減を可能にする。
論文 参考訳(メタデータ) (2022-03-30T22:06:13Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。