論文の概要: Efficient Video Representation Learning via Motion-Aware Token Selection
- arxiv url: http://arxiv.org/abs/2211.10636v2
- Date: Fri, 16 Jun 2023 06:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 18:15:16.545616
- Title: Efficient Video Representation Learning via Motion-Aware Token Selection
- Title(参考訳): モーションアウェアトークン選択による効率的な映像表現学習
- Authors: Sunil Hwang, Jaehong Yoon, Youngwan Lee, Sung Ju Hwang
- Abstract要約: Masked Video Modeling の手法は,ビデオの自己教師型学習において,従来の手法を著しく上回り,その可能性を実証した。
我々は、リッチな動き特徴を含むトークンを発見し、非形式的なトークンをドロップする新しいトークン選択法MATS: Motion-Aware Token Selectionを提案する。
本稿では,最小冗長度で情報的および因果的フレームに集中できる適応的フレーム選択戦略を提案する。
- 参考スコア(独自算出の注目度): 58.98961894133091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently emerged Masked Video Modeling techniques demonstrated their
potential by significantly outperforming previous methods in self-supervised
learning for video. However, they require an excessive amount of computations
and memory while predicting uninformative tokens/frames due to random masking
strategies, requiring excessive computing power for training. (e.g., over 16
nodes with 128 NVIDIA A100 GPUs). To resolve this issue, we exploit the unequal
information density among the patches in videos and propose a new token
selection method, MATS: Motion-Aware Token Selection, that finds tokens
containing rich motion features and drops uninformative ones during both
self-supervised pre-training and fine-tuning. We further present an adaptive
frame selection strategy that allows the model to focus on informative and
causal frames with minimal redundancy. Our method significantly reduces
computation and memory requirements, enabling the pre-training and fine-tuning
on a single machine with 8 GPUs while achieving comparable performance to
computation- and memory-heavy state-of-the-art methods on multiple benchmarks
and on the uncurated Ego4D dataset. We are hopeful that the efficiency of our
MATS will contribute to reducing the barrier to conducting further research on
self-supervised learning for videos.
- Abstract(参考訳): 最近出現したMasked Video Modeling技術は、ビデオの自己教師型学習において、従来の手法を著しく上回り、その可能性を実証した。
しかし、ランダムマスキング戦略による不正なトークンやフレームを予測しながら、過剰な計算とメモリを必要とするため、トレーニングには過剰な計算能力が必要になる。
(例:16ノード以上、128のNVIDIA A100 GPUを持つ)。
この問題を解決するために,ビデオ中のパッチ間の不均一な情報密度を利用して新しいトークン選択手法MATS: Motion-Aware Token Selectionを提案する。
さらに、最小冗長性で情報的および因果的フレームにフォーカスできる適応的なフレーム選択戦略を提案する。
この手法は計算とメモリの要求を大幅に削減し、8gpuの単一マシンで事前トレーニングと微調整を可能にし、複数のベンチマークと未作成のego4dデータセットで計算とメモリに重い最先端の手法に匹敵する性能を達成する。
私たちのマットの効率は、ビデオの自己監督学習に関するさらなる研究の障壁を減らすことに寄与することを期待しています。
関連論文リスト
- A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Masked Autoencoders As Spatiotemporal Learners [60.83955416682043]
本稿では,ビデオからの時間的表現学習へのMasked Autoencoders(MAE)の拡張を概念的にシンプルに検討する。
ビデオ中の時空パッチをランダムにマスクアウトし、オートエンコーダを学習してピクセルで再構成する。
最適なマスキング比は90%(画像上では75%)であり、この比がデータの情報冗長性と関連しているという仮説を支持する。
論文 参考訳(メタデータ) (2022-05-18T17:59:59Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - ELF-VC: Efficient Learned Flexible-Rate Video Coding [61.10102916737163]
低レイテンシモードの性能向上を実現するための,学習ビデオ圧縮のための新しいアイデアをいくつか提案する。
一般的なビデオテストセット UVG と MCL-JCV 上で,ELF-VC と呼ぶ手法をベンチマークする。
我々の手法は少なくとも5倍高速に動作し、これらの数値を報告するすべてのMLコーデックよりもパラメータが少ない。
論文 参考訳(メタデータ) (2021-04-29T17:50:35Z) - PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。
長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。
さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文 参考訳(メタデータ) (2021-03-21T06:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。