論文の概要: Align and Prompt: Video-and-Language Pre-training with Entity Prompts
- arxiv url: http://arxiv.org/abs/2112.09583v1
- Date: Fri, 17 Dec 2021 15:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 17:53:24.527175
- Title: Align and Prompt: Video-and-Language Pre-training with Entity Prompts
- Title(参考訳): 調整とプロンプト: エンティティプロンプトによるビデオと言語事前トレーニング
- Authors: Dongxu Li, Junnan Li, Hongdong Li, Juan Carlos Niebles, Steven C.H.
Hoi
- Abstract要約: ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
- 参考スコア(独自算出の注目度): 111.23364631136339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-and-language pre-training has shown promising improvements on various
downstream tasks. Most previous methods capture cross-modal interactions with a
transformer-based multimodal encoder, not fully addressing the misalignment
between unimodal video and text features. Besides, learning fine-grained
visual-language alignment usually requires off-the-shelf object detectors to
provide object information, which is bottlenecked by the detector's limited
vocabulary and expensive computation cost.
We propose Align and Prompt: an efficient and effective video-and-language
pre-training framework with better cross-modal alignment. First, we introduce a
video-text contrastive (VTC) loss to align unimodal video-text features at the
instance level, which eases the modeling of cross-modal interactions. Then, we
propose a new visually-grounded pre-training task, prompting entity modeling
(PEM), which aims to learn fine-grained region-entity alignment. To achieve
this, we first introduce an entity prompter module, which is trained with VTC
to produce the similarity between a video crop and text prompts instantiated
with entity names. The PEM task then asks the model to predict the entity
pseudo-labels (i.e~normalized similarity scores) for randomly-selected video
crops. The resulting pre-trained model achieves state-of-the-art performance on
both text-video retrieval and videoQA, outperforming prior work by a
substantial margin. Our code and pre-trained models will be released.
- Abstract(参考訳): ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
従来の手法では、変換器をベースとしたマルチモーダルエンコーダによるクロスモーダルなインタラクションをキャプチャするが、アンモダルビデオとテキストの特徴の相違を完全には解決しない。
さらに、粒度の細かい視覚言語アライメントを学習するには、通常、対象情報を提供するために市販の物体検出器が必要である。
クロスモーダルアライメントが向上した,効率的かつ効果的なビデオ・言語事前学習フレームワークである。
まず,ビデオテキストコントラッシブ(VTC)ロスを導入し,インスタンスレベルでの非モーダルなビデオテキスト特徴の整合を図り,モーダル間相互作用のモデリングを容易にする。
そこで我々は,細粒度領域のアライメントを学習することを目的とした,エンティティモデリング(PEM)の促進を目的とした,視覚的な事前学習タスクを提案する。
これを実現するために、まず、vtcでトレーニングされたエンティティプロンパモジュールを導入し、ビデオ作物とエンティティ名でインスタンス化されたテキストプロンプトとの類似性を生成する。
PEMタスクは、ランダムに選択されたビデオ作物の擬似ラベル(正規化類似度スコア)を予測するようモデルに要求する。
得られた事前学習モデルは、テキストビデオ検索とビデオQAの両方で最先端のパフォーマンスを達成する。
私たちのコードと事前訓練されたモデルはリリースされます。
関連論文リスト
- Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。