論文の概要: Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval
- arxiv url: http://arxiv.org/abs/2206.02082v1
- Date: Sun, 5 Jun 2022 01:43:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:22:42.364568
- Title: Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval
- Title(参考訳): 多チャンネルビデオ言語検索のための事前制約付きコントラストモデルの高速適応に向けて
- Authors: Xudong Lin, Simran Tiwari, Shiyuan Huang, Manling Li, Mike Zheng Shou,
Heng Ji, Shih-Fu Chang
- Abstract要約: マルチモーダルコントラストモデルは、画像やビデオ、テキストのエンティティの整合に非常に効果的であることが示されている。
これらの2行のモデルを多チャンネルビデオ言語検索スタイルのタスクに迅速に適応する方法は明らかではない。
- 参考スコア(独自算出の注目度): 70.30052749168013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-channel video-language retrieval require models to understand
information from different modalities (e.g. video+question, video+speech) and
real-world knowledge to correctly link a video with a textual response or
query. Fortunately, multimodal contrastive models have been shown to be highly
effective at aligning entities in images/videos and text, e.g., CLIP; text
contrastive models have been extensively studied recently for their strong
ability of producing discriminative sentence embeddings, e.g., SimCSE. Their
abilities are exactly needed by multi-channel video-language retrieval.
However, it is not clear how to quickly adapt these two lines of models to
multi-channel video-language retrieval-style tasks. In this paper, we identify
a principled model design space with two axes: how to represent videos and how
to fuse video and text information. Based on categorization of recent methods,
we investigate the options of representing videos using continuous feature
vectors or discrete text tokens; for the fusion method, we explore a multimodal
transformer or a pretrained contrastive text model. We extensively evaluate the
four combinations on five video-language datasets. We surprisingly find that
discrete text tokens coupled with a pretrained contrastive text model yields
the best performance. This combination can even outperform state-of-the-art on
the iVQA dataset without the additional training on millions of video-language
data. Further analysis shows that this is because representing videos as text
tokens captures the key visual information with text tokens that are naturally
aligned with text models and the text models obtained rich knowledge during
contrastive pretraining process. All the empirical analysis we obtain for the
four variants establishes a solid foundation for future research on leveraging
the rich knowledge of pretrained contrastive models.
- Abstract(参考訳): マルチチャネル・ビデオ言語検索では、異なるモダリティ(ビデオ+質問、ビデオ+音声など)からの情報をモデルが理解し、実世界の知識がビデオとテキスト応答やクエリを正しくリンクする必要がある。
幸いなことに、マルチモーダルコントラストモデルは画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されており、例えばCLIP(英語版)やテキストコントラストモデルは、SimCSE(英語版)のような差別的な文埋め込みを生成する強力な能力のために、最近広く研究されている。
それらの能力は、マルチチャンネルビデオ言語検索によって正確に必要とされる。
しかし、これらの2行のモデルをマルチチャンネルビデオ言語検索スタイルのタスクに迅速に適用する方法は明確ではない。
本稿では,ビデオの表現方法と映像とテキスト情報を融合する方法という,2つの軸を持つ基本モデル設計空間を同定する。
近年の手法の分類に基づいて,連続特徴ベクトルや離散テキストトークンを用いた映像表現の選択肢を検討するとともに,マルチモーダルトランスフォーマタや事前学習されたコントラストテキストモデルについて検討する。
5つのビデオ言語データセットで4つの組み合わせを広範囲に評価した。
個別のテキストトークンと事前訓練されたコントラストテキストモデルが組み合わさって、最高のパフォーマンスが得られます。
この組み合わせは、何百万ものビデオ言語データに対する追加のトレーニングなしで、iVQAデータセットの最先端のパフォーマンスを達成できる。
さらなる分析により、動画をテキストトークンとして表現することは、テキストモデルと自然に整合するテキストトークンで重要な視覚情報をキャプチャし、テキストモデルは、コントラストプリトレーニングプロセス中に豊富な知識を得たためであることが示された。
4つの変種について得られたすべての経験的分析は、事前訓練されたコントラストモデルの豊富な知識を活用するための将来の研究のための確固たる基礎を確立します。
関連論文リスト
- In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。
我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。
我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文 参考訳(メタデータ) (2022-10-22T00:22:55Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z) - BridgeFormer: Bridging Video-text Retrieval with Multiple Choice
Questions [38.843518809230524]
我々は、Multiple Choice Questions (MCQ) と呼ばれる新しいプレテキストタスクを導入する。
BridgeFormerモジュールは、ビデオ機能に頼ってテキスト機能によって構築された"クエスト"に答えるように訓練されている。
質問や回答の形式では、ローカルなビデオテキストの特徴間の意味的関連を適切に確立することができる。
提案手法は,5つのデータセットにおいて,人気テキスト・ビデオ検索タスクにおける最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2022-01-13T09:33:54Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。