論文の概要: EVEREST: Efficient Masked Video Autoencoder by Removing Redundant
Spatiotemporal Tokens
- arxiv url: http://arxiv.org/abs/2211.10636v4
- Date: Fri, 2 Feb 2024 19:36:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 07:19:19.885675
- Title: EVEREST: Efficient Masked Video Autoencoder by Removing Redundant
Spatiotemporal Tokens
- Title(参考訳): EVEREST: 冗長な時空間トークンを除去した効率的なマスクビデオオートエンコーダ
- Authors: Sunil Hwang, Jaehong Yoon, Youngwan Lee, Sung Ju Hwang
- Abstract要約: ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
- 参考スコア(独自算出の注目度): 62.65545751117208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Video Autoencoder (MVA) approaches have demonstrated their potential
by significantly outperforming previous video representation learning methods.
However, they waste an excessive amount of computations and memory in
predicting uninformative tokens/frames due to random masking strategies. (e.g.,
over 16 nodes with 128 NVIDIA A100 GPUs). To resolve this issue, we exploit the
unequal information density among the patches in videos and propose EVEREST, a
surprisingly efficient MVA approach for video representation learning that
finds tokens containing rich motion features and discards uninformative ones
during both pre-training and fine-tuning. We further present an
information-intensive frame selection strategy that allows the model to focus
on informative and causal frames with minimal redundancy. Our method
significantly reduces the computation and memory requirements of MVA, enabling
the pre-training and fine-tuning on a single machine with 8 GPUs while
achieving comparable performance to computation- and memory-heavy baselines on
multiple benchmarks and the uncurated Ego4D dataset. We hope that our work
contributes to reducing the barrier to further research on video understanding.
- Abstract(参考訳): Masked Video Autoencoder (MVA) アプローチは、従来のビデオ表現学習法を著しく上回り、その可能性を実証している。
しかし、ランダムマスキング戦略による不正なトークン/フレームの予測には、過剰な計算とメモリを浪費する。
(例:16ノード以上、128のNVIDIA A100 GPUを持つ)。
この問題を解決するために,ビデオ中のパッチ間の不平等な情報密度を利用して,リッチなモーション特徴を含むトークンを発見し,事前学習と微調整の両方で非形式的なトークンを捨てる,驚くほど効率的な映像表現学習手法であるVERESTを提案する。
さらに,情報集約型フレーム選択戦略を提案し,最小冗長度で情報的および因果的フレームにフォーカスできるようにする。
提案手法は,MVAの計算とメモリ要求を大幅に低減し,マルチベンチマークと未計算のEgo4Dデータセットの計算およびメモリ重大ベースラインに匹敵する性能を保ちながら,1台のGPUで事前学習と微調整を可能にする。
ビデオ理解のさらなる研究の障壁を減らすことに、私たちの研究が貢献できることを願っています。
関連論文リスト
- Extending Video Masked Autoencoders to 128 frames [75.01251612160829]
ビデオ理解は、自己指導型事前学習目標による強力なパフォーマンスを示す最近のビデオファンデーションモデルにおいて大きな進歩をみせている。
しかし、MAE事前学習を利用した以前の研究の大部分は、ハードウェアメモリと、メモリ集約型の自己保持復号化によるビデオ長の低下により、比較的短いビデオ表現(長さ16 / 32 フレーム)に重点を置いていた。
より長いビデオシーケンス(128フレーム)のトレーニングが可能で、より一般的なランダムよりも優れたパフォーマンスが得られるトークンの優先順位付けのための効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-11-20T20:00:38Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Masked Autoencoders As Spatiotemporal Learners [60.83955416682043]
本稿では,ビデオからの時間的表現学習へのMasked Autoencoders(MAE)の拡張を概念的にシンプルに検討する。
ビデオ中の時空パッチをランダムにマスクアウトし、オートエンコーダを学習してピクセルで再構成する。
最適なマスキング比は90%(画像上では75%)であり、この比がデータの情報冗長性と関連しているという仮説を支持する。
論文 参考訳(メタデータ) (2022-05-18T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。