論文の概要: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners
- arxiv url: http://arxiv.org/abs/2212.04979v1
- Date: Fri, 9 Dec 2022 16:39:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:45:00.263844
- Title: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners
- Title(参考訳): コントラストキャピタからのゼロショット転送によるビデオテキストモデリング
- Authors: Shen Yan, Tao Zhu, Zirui Wang, Yuan Cao, Mi Zhang, Soham Ghosh,
Yonghui Wu, Jiahui Yu
- Abstract要約: 本稿では、事前訓練された画像テキストコントラストキャプタ(CoCa)モデルを再利用し、ビデオテキストタスクに適応するVideoCoCaを提案する。
VideoCoCaのゼロショット転送ベースラインは、ゼロショットビデオ分類に関する最先端の結果をすでに達成している。
我々のアプローチは、将来の研究のためのシンプルで効果的なビデオテキストベースラインを確立する。
- 参考スコア(独自算出の注目度): 47.59597017035785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work explores an efficient approach to establish a foundational
video-text model for tasks including open-vocabulary video classification,
text-to-video retrieval, video captioning and video question-answering. We
present VideoCoCa that reuses a pretrained image-text contrastive captioner
(CoCa) model and adapt it to video-text tasks with minimal extra training.
While previous works adapt image-text models with various cross-frame fusion
modules (for example, cross-frame attention layer or perceiver resampler) and
finetune the modified architecture on video-text data, we surprisingly find
that the generative attentional pooling and contrastive attentional pooling
layers in the image-text CoCa design are instantly adaptable to ``flattened
frame embeddings'', yielding a strong zero-shot transfer baseline for many
video-text tasks. Specifically, the frozen image encoder of a pretrained
image-text CoCa takes each video frame as inputs and generates \(N\) token
embeddings per frame for totally \(T\) video frames. We flatten \(N \times T\)
token embeddings as a long sequence of frozen video representation and apply
CoCa's generative attentional pooling and contrastive attentional pooling on
top. All model weights including pooling layers are directly loaded from an
image-text CoCa pretrained model. Without any video or video-text data,
VideoCoCa's zero-shot transfer baseline already achieves state-of-the-art
results on zero-shot video classification on Kinetics 400/600/700, UCF101,
HMDB51, and Charades, as well as zero-shot text-to-video retrieval on MSR-VTT
and ActivityNet Captions. We also explore lightweight finetuning on top of
VideoCoCa, and achieve strong results on video question-answering (iVQA,
MSRVTT-QA, MSVD-QA) and video captioning (MSR-VTT, ActivityNet, Youcook2). Our
approach establishes a simple and effective video-text baseline for future
research.
- Abstract(参考訳): 本研究は,オープンボキャブラリなビデオ分類,テキスト間検索,ビデオキャプション,ビデオ質問応答などのタスクのための基礎的ビデオテキストモデルを確立するための効率的なアプローチを検討する。
本研究では,事前学習された画像テキストコントラストキャプションモデル(coca)を再利用し,最小限のトレーニングでビデオテキストタスクに適応するvideococaを提案する。
従来,様々なフレーム融合モジュール(例えば,クロスフレーム・アテンション・レイヤやパーセプラー・リサンプラー)で画像テキストモデルを適応させ,ビデオテキストデータに修正アーキテクチャを微調整してきたが,画像テキストのCoCa設計における生成的アテンション・プーリングとコントラスト的アテンション・プール・レイヤは,すぐに「フラット化フレーム埋め込み」に適応し,多くのビデオテキストタスクに対して強力なゼロショット転送ベースラインが得られることがわかった。
具体的には、予め訓練された画像テキストCoCaの凍結画像エンコーダは、各ビデオフレームを入力として、全 \(T\) ビデオフレームに対してフレーム毎に \(N\) トークン埋め込みを生成する。
n \times t\)トークン埋め込みを凍結ビデオ表現の長いシーケンスとしてフラットにし、cocaの生成的注意プールとコントラスト的注意プールを上に適用する。
プール層を含むモデル重みは、イメージテキストcocaプリトレーニングモデルから直接ロードされる。
VideoCoCaのゼロショット転送ベースラインは、Kineetics 400/600/700, UCF101, HMDB51, Charadesのゼロショットビデオ分類と、MSR-VTTとActivityNet Captionsのゼロショットテキスト・ツー・ビデオ検索をすでに実現している。
また,ビデオCoCa上での軽量なファインタニングについても検討し,ビデオ質問応答(iVQA, MSRVTT-QA, MSVD-QA)とビデオキャプション(MSR-VTT, ActivityNet, Youcook2)について強い結果を得た。
我々のアプローチは、将来の研究のためのシンプルで効果的なビデオテキストベースラインを確立する。
関連論文リスト
- Learning text-to-video retrieval from image captioning [59.81537951811595]
本稿では,未収録ビデオを用いたテキスト・ビデオ検索訓練のプロトコルについて述べる。
i) ビデオのラベルにアクセスできず、(ii) テキスト形式でラベル付き画像にアクセスすると仮定する。
画像キャプションによるビデオフレームの自動ラベル付けにより,テキスト対ビデオ検索のトレーニングが可能になることを示す。
論文 参考訳(メタデータ) (2024-04-26T15:56:08Z) - Analyzing Zero-Shot Abilities of Vision-Language Models on Video
Understanding Tasks [6.925770576386087]
本稿では,ゼロショット環境における映像理解タスクの評価において,画像テキストモデルの一般化能力について詳細に検討する。
実験の結果,映像テキストモデルでは,映像AR,ビデオRT,ビデオMCに優れた性能を示すことがわかった。
これらの結果は、コストのかかる事前学習のステップを回避しつつ、基礎的な画像テキストモデルを一連のビデオタスクに適応する利点を浮き彫りにした。
論文 参考訳(メタデータ) (2023-10-07T20:57:54Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - TeViS:Translating Text Synopses to Video Storyboards [30.388090248346504]
ビデオストーリーボード(TeViS)にテキスト合成という新しいタスクを提案する。
テキストの合成を視覚化するために、ビデオストーリーボードとして順序付けられた画像のシーケンスを検索することを目的としている。
VQ-Transはまずテキスト合成と画像を共同埋め込み空間にエンコードし、ベクトル量子化(VQ)を用いて視覚表現を改善する。
論文 参考訳(メタデータ) (2022-12-31T06:32:36Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text
Understanding [13.640902299569008]
我々は、ゼロショットビデオとテキスト理解のための統一モデルを事前訓練するための対照的なアプローチであるVideoCLIPを提案する。
VideoCLIPは、ビデオとテキストの変換器を、近隣の検索から強陰性で時間的に重なり合うビデオテキストペアと対比することによって訓練する。
論文 参考訳(メタデータ) (2021-09-28T23:01:51Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。