論文の概要: VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending
- arxiv url: http://arxiv.org/abs/2305.13167v1
- Date: Mon, 22 May 2023 15:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 14:48:23.947637
- Title: VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending
- Title(参考訳): VLAB: 機能適応とブレンドによるビデオ言語事前トレーニングの強化
- Authors: Xingjian He, Sihan Chen, Fan Ma, Zhicheng Huang, Xiaojie Jin, Zikang
Liu, Dongmei Fu, Yi Yang, Jing Liu, Jiashi Feng
- Abstract要約: CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
- 参考スコア(独自算出の注目度): 78.1399386935455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale image-text contrastive pre-training models, such as CLIP, have
been demonstrated to effectively learn high-quality multimodal representations.
However, there is limited research on learning video-text representations for
general video multimodal tasks based on these powerful features. Towards this
goal, we propose a novel video-text pre-training method dubbed VLAB: Video
Language pre-training by feature Adapting and Blending, which transfers CLIP
representations to video pre-training tasks and develops unified video
multimodal models for a wide range of video-text tasks. Specifically, VLAB is
founded on two key strategies: feature adapting and feature blending. In the
former, we introduce a new video adapter module to address CLIP's deficiency in
modeling temporal information and extend the model's capability to encompass
both contrastive and generative tasks. In the latter, we propose an end-to-end
training method that further enhances the model's performance by exploiting the
complementarity of image and video features. We validate the effectiveness and
versatility of VLAB through extensive experiments on highly competitive video
multimodal tasks, including video text retrieval, video captioning, and video
question answering. Remarkably, VLAB outperforms competing methods
significantly and sets new records in video question answering on MSRVTT, MSVD,
and TGIF datasets. It achieves an accuracy of 49.6, 61.0, and 79.0,
respectively. Codes and models will be released.
- Abstract(参考訳): CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
しかし、これらの強力な特徴に基づいて、一般的なビデオマルチモーダルタスクのためのビデオテキスト表現を学ぶ研究は限られている。
本稿では,VLABと呼ばれる新しいビデオテキスト事前学習手法を提案する。機能適応とブレンディングによるビデオ言語事前学習により,CLIP表現をビデオ事前学習タスクに転送し,幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
具体的には、VLABは機能適応と機能ブレンディングという2つの重要な戦略に基づいています。
前者では、時間情報モデリングにおけるCLIPの欠如に対処する新しいビデオアダプタモジュールを導入し、対照的なタスクと生成タスクの両方を網羅するモデルの能力を拡張した。
後者では,画像と映像の特徴の相補性を活用し,モデルの性能をさらに向上させるエンドツーエンドトレーニング手法を提案する。
ビデオテキスト検索,ビデオキャプション,ビデオ質問応答など,競争力の高いビデオマルチモーダルタスクに関する広範な実験を通じて,VLABの有効性と汎用性を検証する。
興味深いことに、VLABは競合する手法を大幅に上回り、MSRVTT、MSVD、TGIFデータセットでビデオ質問応答で新しいレコードを設定する。
精度は 49.6 と 61.0 と 79.0 である。
コードとモデルがリリースされます。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - Advancing High-Resolution Video-Language Representation with Large-Scale
Video Transcriptions [31.4943447481144]
本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。
本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
論文 参考訳(メタデータ) (2021-11-19T17:36:01Z) - CLIP4Caption: CLIP for Video Caption [9.470254059503862]
私たちは、CLIP対応ビデオテキストマッチングネットワーク(VTM)に基づくビデオキャプションを改善するCLIP4Captionフレームワークを提案する。
このフレームワークは、視覚と言語の両方からの情報を完全に活用し、テキスト生成のための強力なテキスト関連ビデオ機能を学ぶためにモデルを強制している。
論文 参考訳(メタデータ) (2021-10-13T10:17:06Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。