論文の概要: SimVTP: Simple Video Text Pre-training with Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2212.03490v1
- Date: Wed, 7 Dec 2022 07:14:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 16:14:38.723866
- Title: SimVTP: Simple Video Text Pre-training with Masked Autoencoders
- Title(参考訳): SimVTP: Masked Autoencodersによる簡単なビデオテキスト事前トレーニング
- Authors: Yue Ma, Tianyu Yang, Yin Shan, Xiu Li
- Abstract要約: 本稿では,マスク付きオートエンコーダを用いた簡易ビデオテキスト事前学習フレームワークSimVTPを提案する。
入力ビデオの時空間管と入力テキストのワードトークンをランダムにマスキングする。
統一されたオートエンコーダにより、SimVTPは別のモダリティの助けを借りて、あるモダリティのマスキング信号を再構成する。
- 参考スコア(独自算出の注目度): 22.274024313475646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents SimVTP: a Simple Video-Text Pretraining framework via
masked autoencoders. We randomly mask out the spatial-temporal tubes of input
video and the word tokens of input text and then feed them into a unified
autencoder to reconstruct the missing pixels and words. Our SimVTP has several
properties: 1) Thanks to the unified autoencoder, SimVTP reconstructs the
masked signal of one modality with the help from another modality, which
implicitly learns the cross-modal alignment between video tubes and text
tokens. 2) SimVTP not only benefits from a high video masking ratio (e.g. 90%)
due to the temporal redundancy of video, but also needs a high text masking
ratio (e.g. 75%), which is much higher than BERT (e.g. 15%), to achieve optimal
performance. This is because the aid of video modality makes text
reconstruction less challenging, which thus needs a higher mask ratio to make
the pretext harder for useful feature learning. 3) Equipping SimVTP with
video-text contrastive learning (VTC) and video-text matching (VTM), which are
two commonly used cross-modal training strategies, could further improve the
transferable performance significantly. 4) SimVTP is dataefficent, e.g.,
pre-training only on 10% data of WebVid-2M, SimVTP achieves surprisingly good
results (43.8 R@1) on MSRVTT, which is far above recent state-of-the-art
methods pre-trained on both CC3M and WebVid-2M. We transfer our pre-trained
model to various downstream tasks and achieve superior performance. The codes
and models will be released at https://github.com/mayuelala/SimVTP.
- Abstract(参考訳): 本稿では,マスク付きオートエンコーダを用いた簡易ビデオテキスト事前学習フレームワークSimVTPを提案する。
入力ビデオの空間的-時間的チューブと入力テキストの単語トークンをランダムにマスクし、それらを統一オーテンコーダに供給し、欠落したピクセルと単語を再構築する。
simvtpにはいくつかの特性があります
1) 統一されたオートエンコーダにより,SimVTPは,ビデオチューブとテキストトークン間のクロスモーダルアライメントを暗黙的に学習する,あるモダリティのマスク信号の再構成を行う。
2)simvtpはビデオの時間的冗長性により高いビデオマスキング比(例:90%)の恩恵を受けるだけでなく、最適な性能を得るためにはbert(例:15%)よりもはるかに高いテキストマスキング比(例:75%)を必要とする。
これは、ビデオモダリティの支援によって、テキストの再構成が難しくなるため、より高いマスク比を必要とするため、有用な機能学習のために、プリテキストを困難にするためである。
3)ビデオテキストコントラッシブラーニング(VTC)とビデオテキストマッチング(VTM)を併用したSimVTPの取得により,転送性能が向上する可能性が示唆された。
4) SimVTPは、例えば、WebVid-2Mの10%のデータのみを事前トレーニングすることで、MSRVTT上で驚くほど良い結果(43.8 R@1)を得る。
事前学習したモデルを様々な下流タスクに転送し、優れた性能を実現する。
コードとモデルはhttps://github.com/mayuelala/simvtpでリリースされる。
関連論文リスト
- VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Masked Contrastive Pre-Training for Efficient Video-Text Retrieval [37.05164804180039]
我々は、シンプルだが効果的なビデオ言語事前学習(VidLP)フレームワーク、Masked Contrastive Video-Language Pretraining(MAC)を提案する。
我々のMACは、VidLPモデルにおける映像表現の空間的および時間的冗長性を低減することを目的としている。
これらの設計を結合することで、FLOP(60%オフ)の削減、事前トレーニング(3倍)の高速化、性能向上など、効率的なエンドツーエンドの事前トレーニングが可能になる。
論文 参考訳(メタデータ) (2022-12-02T05:44:23Z) - Are All Combinations Equal? Combining Textual and Visual Features with
Multiple Space Learning for Text-Based Video Retrieval [9.537322316673617]
多様なテキスト・視覚的特徴を特徴対に最適に組み合わせる方法について検討する。
これらの表現を学習するために、提案するネットワークアーキテクチャは、複数の空間学習手順に従って訓練される。
論文 参考訳(メタデータ) (2022-11-21T11:08:13Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。