論文の概要: VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2106.11250v1
- Date: Mon, 21 Jun 2021 16:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 16:01:53.485917
- Title: VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning
- Title(参考訳): VIMPAC:masked Token予測とコントラスト学習によるビデオ事前学習
- Authors: Hao Tan, Jie Lei, Thomas Wolf, Mohit Bansal
- Abstract要約: ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
- 参考スコア(独自算出の注目度): 82.09856883441044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video understanding relies on perceiving the global content and modeling its
internal connections (e.g., causality, movement, and spatio-temporal
correspondence). To learn these interactions, we apply a mask-then-predict
pre-training task on discretized video tokens generated via VQ-VAE. Unlike
language, where the text tokens are more independent, neighboring video tokens
typically have strong correlations (e.g., consecutive video frames usually look
very similar), and hence uniformly masking individual tokens will make the task
too trivial to learn useful representations. To deal with this issue, we
propose a block-wise masking strategy where we mask neighboring video tokens in
both spatial and temporal domains. We also add an augmentation-free contrastive
learning method to further capture the global content by predicting whether the
video clips are sampled from the same video. We pre-train our model on
uncurated videos and show that our pre-trained model can reach state-of-the-art
results on several video understanding datasets (e.g., SSV2, Diving48). Lastly,
we provide detailed analyses on model scalability and pre-training method
design. Code is released at https://github.com/airsplay/vimpac.
- Abstract(参考訳): ビデオ理解は、グローバルコンテンツの知覚と、その内部接続(例えば因果関係、運動、時空間対応)のモデル化に依存している。
これらの相互作用を学習するために、VQ-VAEを介して生成された離散化ビデオトークンにマスク列予測事前学習タスクを適用する。
テキストトークンがより独立した言語とは異なり、隣接するビデオトークンには強い相関関係(例えば、連続するビデオフレームは、通常非常によく似ている)があるため、個々のトークンを均一にマスキングすることは、有用な表現を学ぶのに難しすぎる。
この問題に対処するため,我々は空間領域と時間領域の両方に隣接する映像トークンをマスキングするブロックサイドマスキング戦略を提案する。
また、ビデオクリップが同じビデオからサンプリングされているかどうかを予測して、グローバルコンテンツをさらに捉えるために、強調なしのコントラスト学習手法も追加する。
未作成のビデオでモデルを事前トレーニングし、トレーニング済みのモデルがいくつかのビデオ理解データセット(例えば、ssv2, dive48)で最新結果に到達できることを示します。
最後に,モデルのスケーラビリティと事前学習手法の設計について詳細に分析する。
コードはhttps://github.com/airsplay/vimpacでリリースされる。
関連論文リスト
- OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Contrastive Masked Autoencoders for Self-Supervised Video Hashing [54.636976693527636]
SSVH(Self-Supervised Video Hashing)モデルは,ビデオの短いバイナリ表現を生成することを学ぶ。
本稿では,映像意味情報と映像類似性関係理解を組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:48:14Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。