論文の概要: Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training
- arxiv url: http://arxiv.org/abs/2104.09411v1
- Date: Mon, 19 Apr 2021 15:58:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 17:24:06.628267
- Title: Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training
- Title(参考訳): コントラスト型マルチモーダル事前学習による中国語ビデオと言語理解
- Authors: Chenyi Lei, Shixian Luo, Yong Liu, Wanggui He, Jiamang Wang, Guoxin
Wang, Haihong Tang, Chunyan Miao, Houqiang Li
- Abstract要約: VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
- 参考スコア(独自算出の注目度): 79.88705563918413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pre-trained neural models have recently achieved impressive performances
in understanding multimodal content. However, it is still very challenging to
pre-train neural models for video and language understanding, especially for
Chinese video-language data, due to the following reasons. Firstly, existing
video-language pre-training algorithms mainly focus on the co-occurrence of
words and video frames, but ignore other valuable semantic and structure
information of video-language content, e.g., sequential order and
spatiotemporal relationships. Secondly, there exist conflicts between video
sentence alignment and other proxy tasks. Thirdly, there is a lack of
large-scale and high-quality Chinese video-language datasets (e.g., including
10 million unique videos), which are the fundamental success conditions for
pre-training techniques.
In this work, we propose a novel video-language understanding framework named
VICTOR, which stands for VIdeo-language understanding via Contrastive
mulTimOdal pRe-training. Besides general proxy tasks such as masked language
modeling, VICTOR constructs several novel proxy tasks under the contrastive
learning paradigm, making the model be more robust and able to capture more
complex multimodal semantic and structural relationships from different
perspectives. VICTOR is trained on a large-scale Chinese video-language
dataset, including over 10 million complete videos with corresponding
high-quality textual descriptions. We apply the pre-trained VICTOR model to a
series of downstream applications and demonstrate its superior performances,
comparing against the state-of-the-art pre-training methods such as VideoBERT
and UniVL. The codes and trained checkpoints will be publicly available to
nourish further developments of the research community.
- Abstract(参考訳): 事前学習されたニューラルモデルは最近、マルチモーダルコンテンツの理解において印象的なパフォーマンスを達成している。
しかし、ビデオや言語理解のためのニューラルモデルの事前学習、特に中国のビデオ言語データについては、以下の理由から、まだ非常に困難である。
まず、既存のビデオ言語事前学習アルゴリズムは、主に単語とビデオフレームの共起に焦点を当てるが、他のビデオ言語コンテンツ、例えば逐次順序や時空間関係の意味や構造情報を無視する。
第二に、ビデオ文アライメントと他のプロキシタスクとの間には矛盾がある。
第三に、大規模で高品質な中国語ビデオ言語データセット(例えば1000万のユニークなビデオを含む)が欠如しており、これは事前学習技術の基本的な成功条件である。
本研究では,コントラスト型マルチモーダル事前学習によるビデオ言語理解の基盤となる,victorと呼ばれる新しいビデオ言語理解フレームワークを提案する。
マスク言語モデリングのような一般的なプロキシタスクに加えて、VICTORは対照的な学習パラダイムの下でいくつかの新しいプロキシタスクを構築し、モデルがより堅牢になり、異なる視点からより複雑なマルチモーダルセマンティクスと構造的関係を捉えることができる。
VICTORは、高品質なテキスト記述を備えた1000万以上の完全なビデオを含む、大規模な中国のビデオ言語データセットでトレーニングされている。
我々は,VICTORモデルを一連のダウンストリームアプリケーションに適用し,その優れた性能を示し,ビデオBERTやUniVLのような最先端の事前学習手法と比較した。
コードとトレーニングされたチェックポイントは、研究コミュニティのさらなる発展を養うために公開される予定だ。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。
事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。
本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T08:59:59Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。