論文の概要: Advancing High-Resolution Video-Language Representation with Large-Scale
Video Transcriptions
- arxiv url: http://arxiv.org/abs/2111.10337v1
- Date: Fri, 19 Nov 2021 17:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-22 16:53:46.151394
- Title: Advancing High-Resolution Video-Language Representation with Large-Scale
Video Transcriptions
- Title(参考訳): 大規模ビデオ転写を用いた高分解能ビデオランゲージ表現の改良
- Authors: Hongwei Xue, Tiankai Hang, Yanhong Zeng, Yuchong Sun, Bei Liu, Huan
Yang, Jianlong Fu, Baining Guo
- Abstract要約: 本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。
本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
- 参考スコア(独自算出の注目度): 31.4943447481144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study joint video and language (VL) pre-training to enable cross-modality
learning and benefit plentiful downstream VL tasks. Existing works either
extract low-quality video features or learn limited text embedding, while
neglecting that high-resolution videos and diversified semantics can
significantly improve cross-modality learning. In this paper, we propose a
novel High-resolution and Diversified VIdeo-LAnguage pre-training model
(HD-VILA) for many visual tasks. In particular, we collect a large dataset with
two distinct properties: 1) the first high-resolution dataset including 371.5k
hours of 720p videos, and 2) the most diversified dataset covering 15 popular
YouTube categories. To enable VL pre-training, we jointly optimize the HD-VILA
model by a hybrid Transformer that learns rich spatiotemporal features, and a
multimodal Transformer that enforces interactions of the learned video features
with diversified texts. Our pre-training model achieves new state-of-the-art
results in 10 VL understanding tasks and 2 more novel text-to-visual generation
tasks. For example, we outperform SOTA models with relative increases of 38.5%
R@1 in zero-shot MSR-VTT text-to-video retrieval task, and 53.6% in
high-resolution dataset LSMDC. The learned VL embedding is also effective in
generating visually pleasing and semantically relevant results in
text-to-visual manipulation and super-resolution tasks.
- Abstract(参考訳): 共同ビデオと言語(VL)の事前学習について検討し、モダリティ間の学習を可能にし、多くの下流VLタスクに役立てる。
既存の作業は、低品質のビデオの特徴を抽出するか、限られたテキスト埋め込みを学習する一方、高解像度のビデオと多彩なセマンティクスは、モダリティ間の学習を大幅に改善できることを無視する。
本稿では,多くの視覚的タスクを対象とした高分解能・多変量VIdeo-LAnguage事前学習モデル(HD-VILA)を提案する。
特に、2つの異なる特性を持つ大きなデータセットを収集する。
1)720pビデオの371.5k時間を含む最初の高解像度データセット
2)最も多様なデータセットは15のyoutubeカテゴリをカバーする。
vl事前学習を可能にするために,リッチな時空間的特徴を学習するハイブリッドトランスフォーマティブと,学習した映像特徴と多様なテキストとの相互作用を強制するマルチモーダルトランスフォーマによるhd-vilaモデルを共同で最適化する。
事前学習モデルは、10のvl理解タスクと2つの新しいテキスト・ツー・ビジュアル生成タスクで最新の結果を得る。
例えば、ゼロショットMSR-VTTテキスト・ビデオ検索タスクでは38.5%のR@1、高解像度データセットLSMDCでは53.6%でSOTAモデルを上回った。
学習されたVL埋め込みは、テキスト対視覚操作や超解像度タスクにおいて視覚的に快く意味的に関連する結果を生成するのにも有効である。
関連論文リスト
- Video Instruction Tuning With Synthetic Data [84.64519990333406]
ビデオ命令追従のための高品質な合成データセット、すなわちLLaVA-Video-178Kを作成する。
このデータセットには、詳細なキャプション、オープンエンド質問回答(QA)、複数選択QAといった重要なタスクが含まれている。
このデータセットをトレーニングすることにより、既存の視覚的インストラクションチューニングデータと組み合わせて、新しいビデオLMMであるLLaVA-Videoを導入する。
論文 参考訳(メタデータ) (2024-10-03T17:36:49Z) - PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning [78.23573511641548]
視覚言語事前学習は、幅広い画像言語アプリケーションで性能を大幅に向上させた。
しかし、ビデオ関連タスクの事前学習プロセスは、非常に大きな計算とデータリソースを必要とする。
本稿では,映像理解のための既存の画像言語事前学習モデルに適用するための,ストレートフォワード,高効率,資源光のアプローチについて検討する。
論文 参考訳(メタデータ) (2024-04-25T19:29:55Z) - E-ViLM: Efficient Video-Language Model via Masked Video Modeling with
Semantic Vector-Quantized Tokenizer [5.7254320553764]
E-ViLMはビデオ言語コーパスから表現表現を学習し、広範なビデオ言語タスクにうまく一般化することができる。
我々のモデルはMSRVTTベンチマークで399.3ドル%トップ1ドル精度に達し、最先端の大規模VLアーキテクチャの精度の91.4ドル%を維持している。
論文 参考訳(メタデータ) (2023-11-28T22:57:17Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Learning Video Representations from Large Language Models [31.11998135196614]
我々はLarge Language Models(LLMs)を利用したビデオ言語表現学習の新しいアプローチであるLaViLaを紹介した。
我々は、事前学習したLLMを視覚入力で条件付けするために再利用し、それらを微調整して自動ビデオナレーターを作成する。
私たちの自動生成ナレーションには、長いビデオの密接なカバレッジ、視覚情報とテキストの時間同期の改善、テキストの多様性の向上など、多くの利点があります。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。