論文の概要: UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation
- arxiv url: http://arxiv.org/abs/2002.06353v3
- Date: Tue, 15 Sep 2020 13:27:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 22:43:17.110423
- Title: UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation
- Title(参考訳): UniVL:マルチモーダル理解と生成のための統合ビデオおよび言語事前学習モデル
- Authors: Huaishao Luo, Lei Ji, Botian Shi, Haoyang Huang, Nan Duan, Tianrui Li,
Jason Li, Taroon Bharti, Ming Zhou
- Abstract要約: 本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
- 参考スコア(独自算出の注目度): 76.12027504427708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent success of the pre-training technique for NLP and
image-linguistic tasks, some video-linguistic pre-training works are gradually
developed to improve video-text related downstream tasks. However, most of the
existing multimodal models are pre-trained for understanding tasks, leading to
a pretrain-finetune discrepancy for generation tasks. This paper proposes
UniVL: a Unified Video and Language pre-training model for both multimodal
understanding and generation. It comprises four components, including two
single-modal encoders, a cross encoder, and a decoder with the Transformer
backbone. Five objectives, including video-text joint, conditioned masked
language model (CMLM), conditioned masked frame model (CMFM), video-text
alignment, and language reconstruction, are designed to train each of the
components. We further develop two pre-training strategies, stage by stage
pre-training (StagedP) and enhanced video representation (EnhancedV), to make
the training process of the UniVL more effective. The pre-train is carried out
on a sizeable instructional video dataset HowTo100M. Experimental results
demonstrate that the UniVL can learn strong video-text representation and
achieves state-of-the-art results on five downstream tasks.
- Abstract(参考訳): 最近のNLPおよび画像言語タスクの事前学習技術の成功により、ビデオテキスト関連下流タスクを改善するために、ビデオ言語事前学習作業が徐々に発展していく。
しかし、既存のマルチモーダルモデルのほとんどは理解タスクのために事前訓練されているため、生成タスクに対する事前訓練ファイントゥン差が生じている。
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
video-text joint, conditioned masked language model (cmlm), conditioned masked frame model (cmfm), video-text alignment, language reconstructionの5つの目的がそれぞれのコンポーネントをトレーニングするために設計されている。
さらに、ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
プリトレインは、大容量のインストラクショナルビデオデータセットHowTo100Mで実行される。
実験の結果、UniVLは強力なビデオテキスト表現を学習し、5つの下流タスクで最先端の結果を得ることができた。
関連論文リスト
- VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - VideoPoet: A Large Language Model for Zero-Shot Video Generation [78.57171527944774]
VideoPoetは、高品質なビデオと一致するオーディオを合成できる言語モデルである。
VideoPoetはマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。
論文 参考訳(メタデータ) (2023-12-21T18:46:41Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。