論文の概要: All in One: Exploring Unified Video-Language Pre-training
- arxiv url: http://arxiv.org/abs/2203.07303v1
- Date: Mon, 14 Mar 2022 17:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 16:19:19.992015
- Title: All in One: Exploring Unified Video-Language Pre-training
- Title(参考訳): オールインワン:統一されたビデオ言語事前学習を探求する
- Authors: Alex Jinpeng Wang, Yixiao Ge, Rui Yan, Yuying Ge, Xudong Lin, Guanyu
Cai, Jianping Wu, Ying Shan, Xiaohu Qie, Mike Zheng Shou
- Abstract要約: そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
- 参考スコア(独自算出の注目度): 44.22059872694995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mainstream Video-Language Pre-training models \cite{actbert,clipbert,violet}
consist of three parts, a video encoder, a text encoder, and a video-text
fusion Transformer. They pursue better performance via utilizing heavier
unimodal encoders or multimodal fusion Transformers, resulting in increased
parameters with lower efficiency in downstream tasks. In this work, we for the
first time introduce an end-to-end video-language model, namely
\textit{all-in-one Transformer}, that embeds raw video and textual signals into
joint representations using a unified backbone architecture. We argue that the
unique temporal information of video data turns out to be a key barrier
hindering the design of a modality-agnostic Transformer. To overcome the
challenge, we introduce a novel and effective token rolling operation to encode
temporal representations from video clips in a non-parametric manner. The
careful design enables the representation learning of both video-text
multimodal inputs and unimodal inputs using a unified backbone model. Our
pre-trained all-in-one Transformer is transferred to various downstream
video-text tasks after fine-tuning, including text-video retrieval,
video-question answering, multiple choice and visual commonsense reasoning.
State-of-the-art performances with the minimal model FLOPs on nine datasets
demonstrate the superiority of our method compared to the competitive
counterparts. The code and pretrained model have been released in
https://github.com/showlab/all-in-one.
- Abstract(参考訳): Mainstream Video-Language 事前トレーニングモデル \cite{actbert,clipbert,violet} は、ビデオエンコーダ、テキストエンコーダ、ビデオテキスト融合変換器の3つの部分で構成される。
より重いユニモーダルエンコーダやマルチモーダル融合トランスフォーマーを利用することで、より優れたパフォーマンスを追求し、結果として下流タスクの効率が低下するパラメータが増加する。
本稿では,映像とテキストの信号を統合的なバックボーンアーキテクチャを用いて結合表現に組み込む,エンドツーエンドのビデオ言語モデルである \textit{all-in-one transformer} を初めて紹介する。
ビデオデータのユニークな時間的情報は、モダリティに依存しないトランスフォーマーの設計を妨げる重要な障壁であることが判明した。
この課題を克服するために,ビデオクリップからの時間表現を非パラメトリックにエンコードする,新規かつ効果的なトークンローリング操作を導入する。
注意深い設計により、ビデオテキストのマルチモーダル入力とユニモーダル入力の両方を統一バックボーンモデルを用いて表現学習することができる。
我々の事前学習したオールインワントランスフォーマーは、テキストビデオ検索、ビデオ検索、複数選択、ビジュアルコモンセンス推論など、微調整後の様々なダウンストリームビデオテキストタスクに転送される。
9つのデータセット上での最小モデルFLOPを用いた最先端性能は、競合相手と比較して、我々の手法の優位性を示している。
コードと事前トレーニングされたモデルはhttps://github.com/showlab/all-in-oneでリリースされている。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Multimodal Frame-Scoring Transformer for Video Summarization [4.266320191208304]
MFST(Multimodal Frame-Scoring Transformer)フレームワークは、視覚的、テキスト、オーディオ機能を利用して、フレームに関するビデオをスコアする。
MFSTフレームワークは、事前に訓練されたエンコーダを用いて、まず各モダリティ特徴(視覚-テキスト-オーディオ)を抽出する。
MFSTは、ビデオテキスト・オーディオ表現を入力として使用し、フレームレベルのスコアを予測するマルチモーダル・フレーム・スコリング・トランスフォーマーを訓練する。
論文 参考訳(メタデータ) (2022-07-05T05:14:15Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - CogVideo: Large-scale Pretraining for Text-to-Video Generation via
Transformers [16.255516347736535]
大規模事前学習型トランスフォーマーは、テキスト(GPT-3)とテキスト・トゥ・イメージ(DALL-EとCagView)生成のマイルストーンを作成した。
CogVideoは、事前訓練されたテキスト・ツー・イメージモデルであるCogView2を継承することでトレーニングされる。
CogVideoは、マシンと人間の評価において、すべての公開モデルをはるかに上回っている。
論文 参考訳(メタデータ) (2022-05-29T19:02:15Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。