論文の概要: CoCo-BERT: Improving Video-Language Pre-training with Contrastive
Cross-modal Matching and Denoising
- arxiv url: http://arxiv.org/abs/2112.07515v1
- Date: Tue, 14 Dec 2021 16:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 14:22:24.119525
- Title: CoCo-BERT: Improving Video-Language Pre-training with Contrastive
Cross-modal Matching and Denoising
- Title(参考訳): CoCo-BERT:コントラストクロスモーダルマッチングとデノーミングによるビデオランゲージ事前トレーニングの改善
- Authors: Jianjie Luo and Yehao Li and Yingwei Pan and Ting Yao and Hongyang
Chao and Tao Mei
- Abstract要約: 我々は,ビデオ言語事前学習のためのコントラスト型クロスモーダルマッチングとデノベーションプロキシ目的を開発する。
我々のCoCoプロキシの目的は、コントラストクロスモーダルBERT(CoCo-BERT)と名付けられたビデオ言語事前学習のためのBERT型エンコーダデコーダ構造にさらに統合することができる。
- 参考スコア(独自算出の注目度): 107.48710395564363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BERT-type structure has led to the revolution of vision-language pre-training
and the achievement of state-of-the-art results on numerous vision-language
downstream tasks. Existing solutions dominantly capitalize on the multi-modal
inputs with mask tokens to trigger mask-based proxy pre-training tasks (e.g.,
masked language modeling and masked object/frame prediction). In this work, we
argue that such masked inputs would inevitably introduce noise for cross-modal
matching proxy task, and thus leave the inherent vision-language association
under-explored. As an alternative, we derive a particular form of cross-modal
proxy objective for video-language pre-training, i.e., Contrastive Cross-modal
matching and denoising (CoCo). By viewing the masked frame/word sequences as
the noisy augmentation of primary unmasked ones, CoCo strengthens
video-language association by simultaneously pursuing inter-modal matching and
intra-modal denoising between masked and unmasked inputs in a contrastive
manner. Our CoCo proxy objective can be further integrated into any BERT-type
encoder-decoder structure for video-language pre-training, named as Contrastive
Cross-modal BERT (CoCo-BERT). We pre-train CoCo-BERT on TV dataset and a newly
collected large-scale GIF video dataset (ACTION). Through extensive experiments
over a wide range of downstream tasks (e.g., cross-modal retrieval, video
question answering, and video captioning), we demonstrate the superiority of
CoCo-BERT as a pre-trained structure.
- Abstract(参考訳): BERT型構造は、視覚言語事前学習の革命と、多くの視覚言語下流タスクにおける最先端の成果の達成につながっている。
既存のソリューションでは、マスクベースのプロキシ事前トレーニングタスク(マスク付き言語モデリングやマスク付きオブジェクト/フレーム予測など)をトリガーするマスクトークンによるマルチモーダル入力が主流である。
本研究では,このようなマスキング入力は必然的にクロスモーダルマッチングプロキシタスクにノイズをもたらし,それゆえ本質的な視覚言語関連を未熟に残すことを議論する。
代替として、ビデオ言語事前学習(Contrastive Cross-modal matching and denoising (CoCo))のための特定の形態のクロスモーダルプロキシーを導出する。
CoCoは、マスク付きフレーム/ワードシーケンスをプライマリ・アンマスケインプットのノイズ増大と見なすことにより、マスケインプットとアンマスケインプットのモーダル間マッチングとイントラ・モーダルデノージングをコントラスト的に同時に進めることで、ビデオ言語関連を強化する。
我々のCoCoプロキシの目的は、コントラストクロスモーダルBERT(CoCo-BERT)と名付けられたビデオ言語事前学習のためのBERT型エンコーダデコーダ構造にさらに統合することができる。
我々は、テレビデータセットと、新たに収集した大規模GIFビデオデータセット(ACTION)でCoCo-BERTを事前訓練する。
幅広い下流タスク(例えば、クロスモーダル検索、ビデオ質問応答、ビデオキャプション)に関する広範な実験を通じて、CoCo-BERTが事前訓練された構造であることを示す。
関連論文リスト
- Masked Contrastive Pre-Training for Efficient Video-Text Retrieval [37.05164804180039]
我々は、シンプルだが効果的なビデオ言語事前学習(VidLP)フレームワーク、Masked Contrastive Video-Language Pretraining(MAC)を提案する。
我々のMACは、VidLPモデルにおける映像表現の空間的および時間的冗長性を低減することを目的としている。
これらの設計を結合することで、FLOP(60%オフ)の削減、事前トレーニング(3倍)の高速化、性能向上など、効率的なエンドツーエンドの事前トレーニングが可能になる。
論文 参考訳(メタデータ) (2022-12-02T05:44:23Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular
Vision-Language Pre-training [120.91411454661741]
視覚言語認識と生成を容易にするための訓練済みユニバーサル・デコーダネットワーク(Uni-EDEN)を提案する。
Uni-EDENは2ストリームトランスフォーマーベースの構造で、オブジェクトと文エンコーダの3つのモジュールで構成され、各モダリティの表現を別々に学習する。
論文 参考訳(メタデータ) (2022-01-11T16:15:07Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Masking Modalities for Cross-modal Video Retrieval [93.10669981708878]
ビデオエンコーダを事前訓練するための一般的な戦略は、付随する音声を弱い監督力として使用することである。
ビデオエンコーダの事前学習には,映像のモダリティ,すなわち外見,音,書き起こされた音声の監督が用いられる。
How2R, YouCook2, Condensed Moviesデータセット上で, ビデオ検索のための"モダリティマスキング"事前学習手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-01T23:55:04Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。