論文の概要: Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning
- arxiv url: http://arxiv.org/abs/2210.06031v1
- Date: Wed, 12 Oct 2022 09:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:46:09.617063
- Title: Long-Form Video-Language Pre-Training with Multimodal Temporal
Contrastive Learning
- Title(参考訳): マルチモーダル時間コントラスト学習を用いた長文映像言語事前学習
- Authors: Yuchong Sun, Hongwei Xue, Ruihua Song, Bei Liu, Huan Yang, Jianlong Fu
- Abstract要約: 大規模ビデオ言語事前学習では、ビデオ言語理解タスクが大幅に改善されている。
我々は、VILA(Long-Form VIdeo-LAnguage Pre-Training Model)を導入し、大規模な長文ビデオおよび段落データセットでトレーニングする。
我々は、7つの下流の長文ビデオ言語理解タスクでモデルを微調整し、新しい最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 39.80936685227549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale video-language pre-training has shown significant improvement in
video-language understanding tasks. Previous studies of video-language
pretraining mainly focus on short-form videos (i.e., within 30 seconds) and
sentences, leaving long-form video-language pre-training rarely explored.
Directly learning representation from long-form videos and language may benefit
many long-form video-language understanding tasks. However, it is challenging
due to the difficulty of modeling long-range relationships and the heavy
computational burden caused by more frames. In this paper, we introduce a
Long-Form VIdeo-LAnguage pre-training model (LF-VILA) and train it on a
large-scale long-form video and paragraph dataset constructed from an existing
public dataset. To effectively capture the rich temporal dynamics and to better
align video and language in an efficient end-to-end manner, we introduce two
novel designs in our LF-VILA model. We first propose a Multimodal Temporal
Contrastive (MTC) loss to learn the temporal relation across different
modalities by encouraging fine-grained alignment between long-form videos and
paragraphs. Second, we propose a Hierarchical Temporal Window Attention (HTWA)
mechanism to effectively capture long-range dependency while reducing
computational cost in Transformer. We fine-tune the pre-trained LF-VILA model
on seven downstream long-form video-language understanding tasks of
paragraph-to-video retrieval and long-form video question-answering, and
achieve new state-of-the-art performances. Specifically, our model achieves
16.1% relative improvement on ActivityNet paragraph-to-video retrieval task and
2.4% on How2QA task, respectively. We release our code, dataset, and
pre-trained models at https://github.com/microsoft/XPretrain.
- Abstract(参考訳): 大規模ビデオ言語事前学習では,映像言語理解タスクが大幅に改善されている。
ビデオ言語事前訓練のこれまでの研究は、主にショートフォームビデオ(すなわち30秒以内)と文に焦点を当てており、長い形式のビデオ言語事前訓練はめったに行われない。
長文ビデオや言語から直接表現を学ぶことは、長文ビデオ言語理解の多くのタスクに役立つかもしれない。
しかし, 長期関係のモデル化が困難であり, フレーム数の増加による計算負荷が大きいため, 課題となっている。
本稿では,Long-Form VIdeo-LAnguage Pre-Training Model (LF-VILA)を導入し,既存の公開データセットから構築した大規模長大ビデオおよび段落データセット上で学習する。
そこで我々は,このLF-VILAモデルにおいて,リッチな時間的ダイナミクスを効果的に捉え,映像と言語をより効率的なエンドツーエンドで整列させるために,新しい2つの設計手法を提案する。
まず,複数モーダルビデオと段落間の微粒なアライメントを促進することで,異なるモーダル間の時間的関係を学習するためのMTC損失を提案する。
第2に、Transformerの計算コストを削減しつつ、長距離依存を効果的に捉える階層型時間窓注意(HTWA)機構を提案する。
学習済みlf-vilaモデルを,段落間検索と長文ビデオ質問応答の7つの下流長文ビデオ言語理解タスクで微調整し,新たな最先端性能を実現する。
具体的には,アクティビティネットの段落間検索タスクで16.1%,how2qaタスクで2.4%改善した。
コード、データセット、事前トレーニングされたモデルをhttps://github.com/microsoft/xpretrainでリリースします。
関連論文リスト
- Contrastive Language Video Time Pre-training [12.876308881183371]
本稿では,コントラスト学習による長文ビデオにおける言語,ビデオ,時間表現の新たな学習手法であるLAVITIを紹介する。
我々のモデルは、学習可能なモーメントクエリを用いて、クリップレベルの視覚的特徴、言語的特徴、時間的特徴をデコードする。
本手法をCharadesEgo行動認識に応用し,最先端の結果を得た。
論文 参考訳(メタデータ) (2024-06-04T02:48:59Z) - VidLA: Video-Language Alignment at Scale [48.665918882615195]
大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。
提案手法は,複数の検索ベンチマークにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-21T22:36:24Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。