論文の概要: VindLU: A Recipe for Effective Video-and-Language Pretraining
- arxiv url: http://arxiv.org/abs/2212.05051v2
- Date: Wed, 5 Apr 2023 17:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 15:47:15.314743
- Title: VindLU: A Recipe for Effective Video-and-Language Pretraining
- Title(参考訳): VindLU: 効果的なビデオとランゲージの事前トレーニング
- Authors: Feng Cheng, Xizi Wang, Jie Lei, David Crandall, Mohit Bansal, Gedas
Bertasius
- Abstract要約: 本稿では,VidLモデル設計において最も重要な要素を解明する実証的研究を行う。
これらの経験的洞察を用いて、有効なVidL事前学習のためのステップバイステップレシピVindLUを開発した。
提案手法を用いてトレーニングしたモデルは,VidLタスクにおける最先端結果と同等かそれ以上の精度で達成できる。
- 参考スコア(独自算出の注目度): 83.49216853881595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The last several years have witnessed remarkable progress in
video-and-language (VidL) understanding. However, most modern VidL approaches
use complex and specialized model architectures and sophisticated pretraining
protocols, making the reproducibility, analysis and comparisons of these
frameworks difficult. Hence, instead of proposing yet another new VidL model,
this paper conducts a thorough empirical study demystifying the most important
factors in the VidL model design. Among the factors that we investigate are (i)
the spatiotemporal architecture design, (ii) the multimodal fusion schemes,
(iii) the pretraining objectives, (iv) the choice of pretraining data, (v)
pretraining and finetuning protocols, and (vi) dataset and model scaling. Our
empirical study reveals that the most important design factors include:
temporal modeling, video-to-text multimodal fusion, masked modeling objectives,
and joint training on images and videos. Using these empirical insights, we
then develop a step-by-step recipe, dubbed VindLU, for effective VidL
pretraining. Our final model trained using our recipe achieves comparable or
better than state-of-the-art results on several VidL tasks without relying on
external CLIP pretraining. In particular, on the text-to-video retrieval task,
our approach obtains 61.2% on DiDeMo, and 55.0% on ActivityNet, outperforming
current SOTA by 7.8% and 6.1% respectively. Furthermore, our model also obtains
state-of-the-art video question-answering results on ActivityNet-QA, MSRVTT-QA,
MSRVTT-MC and TVQA. Our code and pretrained models are publicly available at:
https://github.com/klauscc/VindLU.
- Abstract(参考訳): 近年ではビデオ・アンド・ランゲージ(VidL)の理解が著しく進歩している。
しかし、現代のほとんどのVidLアプローチは複雑で特殊なモデルアーキテクチャと高度な事前訓練プロトコルを使用しており、これらのフレームワークの再現性、分析、比較を困難にしている。
そこで本研究では,新たなVidLモデルを提案する代わりに,VidLモデル設計において最も重要な要素を解明する実験を行った。
私たちが調査する要因は
(i)時空間建築設計
(ii)マルチモーダル融合スキーム
(iii)事前訓練の目的
(iv)事前訓練データの選択
(v)プリトレーニング及び微調整プロトコル、及び
(vi)データセットとモデルスケーリング。
実験の結果, 時間的モデリング, テキスト間融合, マスキングモデリング目標, 画像と映像の合同学習など, 最も重要な設計要素が得られた。
これらの経験的洞察を用いて、有効なVidL事前学習のためのステップバイステップレシピVindLUを開発した。
我々のレシピを用いてトレーニングした最終モデルは、外部のCLIP事前学習に頼ることなく、VidLタスクの最先端結果と同等かそれ以上の精度で達成できる。
特にテキスト・ビデオ検索タスクでは,DiDeMoが61.2%,ActivityNetが55.0%,現在のSOTAが7.8%,そして6.1%を上回っている。
さらに,本モデルでは,ActivityNet-QA,MSRVTT-QA,MSRVTT-MC,TVQAの映像質問結果も取得した。
私たちのコードと事前訓練されたモデルは、https://github.com/klauscc/VindLU.comで公開されています。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。