論文の概要: Efficient Video Representation Learning via Masked Video Modeling with
Motion-centric Token Selection
- arxiv url: http://arxiv.org/abs/2211.10636v1
- Date: Sat, 19 Nov 2022 09:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 18:46:24.575494
- Title: Efficient Video Representation Learning via Masked Video Modeling with
Motion-centric Token Selection
- Title(参考訳): 動き中心トークン選択を用いたマスク映像モデルによる効率的な映像表現学習
- Authors: Sunil Hwang, Jaehong Yoon, Youngwan Lee, Sung Ju Hwang
- Abstract要約: 自己教師付きビデオ表現学習(VRL)は、未処理のビデオストリームから転送可能な表現を学習することを目的としている。
オブジェクトの動きに応じて,より重要なトークンをマスクする新しいトークン選択法を提案する。
提案手法は,複数のベンチマークおよびEgo4Dデータセットに対して評価を行い,提案手法を用いた事前学習モデルが,下流タスクにおける最先端のVRL手法を著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 58.98961894133091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised Video Representation Learning (VRL) aims to learn
transferrable representations from uncurated, unlabeled video streams that
could be utilized for diverse downstream tasks. With recent advances in Masked
Image Modeling (MIM), in which the model learns to predict randomly masked
regions in the images given only the visible patches, MIM-based VRL methods
have emerged and demonstrated their potential by significantly outperforming
previous VRL methods. However, they require an excessive amount of computations
due to the added temporal dimension. This is because existing MIM-based VRL
methods overlook spatial and temporal inequality of information density among
the patches in arriving videos by resorting to random masking strategies,
thereby wasting computations on predicting uninformative tokens/frames. To
tackle these limitations of Masked Video Modeling, we propose a new token
selection method that masks our more important tokens according to the object's
motions in an online manner, which we refer to as Motion-centric Token
Selection. Further, we present a dynamic frame selection strategy that allows
the model to focus on informative and causal frames with minimal redundancy. We
validate our method over multiple benchmark and Ego4D datasets, showing that
the pre-trained model using our proposed method significantly outperforms
state-of-the-art VRL methods on downstream tasks, such as action recognition
and object state change classification while largely reducing memory
requirements during pre-training and fine-tuning.
- Abstract(参考訳): 自己教師付きビデオ表現学習(VRL)は、さまざまな下流タスクに使用できる未処理の未ラベルのビデオストリームから転送可能な表現を学習することを目的としている。
近年のMasked Image Modeling (MIM) の進歩により、視認パッチのみを与えられた画像内のランダムなマスキング領域の予測が学習され、MIMベースのVRL法が出現し、従来のVRL法を大幅に上回る可能性を示した。
しかし、これらは時間次元の追加による過剰な計算を必要とする。
これは、既存のMIMベースのVRL手法が、ランダムマスキング戦略に頼って、到着するビデオのパッチ間の空間的および時間的情報密度の不等式を見落としているためである。
マスク付きビデオモデリングのこれらの制約に対処するため,我々は,物体の動きに応じてより重要なトークンをオンライン的にマスキングする新しいトークン選択法を提案し,これをモーション中心のトークン選択と呼ぶ。
さらに,モデルが最小限の冗長性で有益かつ因果的なフレームに集中できる動的フレーム選択戦略を提案する。
提案手法を用いた事前学習モデルは,動作認識やオブジェクト状態変化の分類などの下流タスクにおいて,従来のVRL手法よりも大幅に優れ,事前学習や微調整の際のメモリ要求を大幅に低減することを示した。
関連論文リスト
- Extending Video Masked Autoencoders to 128 frames [75.01251612160829]
ビデオ理解は、自己指導型事前学習目標による強力なパフォーマンスを示す最近のビデオファンデーションモデルにおいて大きな進歩をみせている。
しかし、MAE事前学習を利用した以前の研究の大部分は、ハードウェアメモリと、メモリ集約型の自己保持復号化によるビデオ長の低下により、比較的短いビデオ表現(長さ16 / 32 フレーム)に重点を置いていた。
より長いビデオシーケンス(128フレーム)のトレーニングが可能で、より一般的なランダムよりも優れたパフォーマンスが得られるトークンの優先順位付けのための効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-11-20T20:00:38Z) - VideoLLaMB: Long-context Video Understanding with Recurrent Memory Bridges [42.555895949250704]
VideoLLaMBは、ブリッジ層内の時間メモリトークンを使用して、ビデオシーケンス全体のエンコーディングを可能にする新しいフレームワークである。
SceneTillingアルゴリズムは、ビデオを独立したセマンティックユニットに分割し、セマンティックな整合性を維持する。
効率面では、16フレームでトレーニングされたVideoLLaMBは、1つのNvidia A100 GPU上で最大320フレームをサポートする。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Masked Autoencoders As Spatiotemporal Learners [60.83955416682043]
本稿では,ビデオからの時間的表現学習へのMasked Autoencoders(MAE)の拡張を概念的にシンプルに検討する。
ビデオ中の時空パッチをランダムにマスクアウトし、オートエンコーダを学習してピクセルで再構成する。
最適なマスキング比は90%(画像上では75%)であり、この比がデータの情報冗長性と関連しているという仮説を支持する。
論文 参考訳(メタデータ) (2022-05-18T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。