論文の概要: End-to-end Generative Pretraining for Multimodal Video Captioning
- arxiv url: http://arxiv.org/abs/2201.08264v1
- Date: Thu, 20 Jan 2022 16:16:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 13:34:10.644405
- Title: End-to-end Generative Pretraining for Multimodal Video Captioning
- Title(参考訳): マルチモーダルビデオキャプションのためのエンドツーエンド生成準備
- Authors: Paul Hongsuck Seo, Arsha Nagrani, Anurag Arnab, Cordelia Schmid
- Abstract要約: 本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 82.79187814057313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent video and language pretraining frameworks lack the ability to generate
sentences. We present Multimodal Video Generative Pretraining (MV-GPT), a new
pretraining framework for learning from unlabelled videos which can be
effectively used for generative tasks such as multimodal video captioning.
Unlike recent video-language pretraining frameworks, our framework trains both
a multimodal video encoder and a sentence decoder jointly. To overcome the lack
of captions in unlabelled videos, we leverage the future utterance as an
additional text source and propose a bidirectional generation objective -- we
generate future utterances given the present mulitmodal context, and also the
present utterance given future observations. With this objective, we train an
encoder-decoder model end-to-end to generate a caption from raw pixels and
transcribed speech directly. Our model achieves state-of-the-art performance
for multimodal video captioning on four standard benchmarks, as well as for
other video understanding tasks such as VideoQA, video retrieval and action
classification.
- Abstract(参考訳): 最近のビデオおよび言語事前学習フレームワークには、文を生成する能力がない。
本稿では,マルチモーダルビデオキャプションなどの生成タスクに効果的に使用できる,未学習のビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語プリトレーニングフレームワークとは異なり、マルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
非ラベルビデオにおけるキャプションの欠如を克服するために、将来の発話を追加のテキストソースとして活用し、双方向生成目標を提案する。
この目的により、エンコーダ・デコーダモデルをエンドツーエンドにトレーニングし、生の画素と転写された音声から直接キャプションを生成する。
4つの標準ベンチマークでマルチモーダルビデオキャプションの最先端性能を実現するとともに,ビデオqa,ビデオ検索,アクション分類などの映像理解タスクを実現する。
関連論文リスト
- InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - Masking Modalities for Cross-modal Video Retrieval [93.10669981708878]
ビデオエンコーダを事前訓練するための一般的な戦略は、付随する音声を弱い監督力として使用することである。
ビデオエンコーダの事前学習には,映像のモダリティ,すなわち外見,音,書き起こされた音声の監督が用いられる。
How2R, YouCook2, Condensed Moviesデータセット上で, ビデオ検索のための"モダリティマスキング"事前学習手法の優れた性能を示す。
論文 参考訳(メタデータ) (2021-11-01T23:55:04Z) - Open-book Video Captioning with Retrieve-Copy-Generate Network [42.374461018847114]
本稿では,従来のビデオキャプションタスクを新たなパラダイム,すなわちOpen-book Video Captioningに変換する。
本稿では,プラグイン可能なビデオ・テキスト検索システムを構築し,学習コーパスからのヒントとして文を効率的に検索するRetrieve-Copy-Generateネットワークを提案する。
本フレームワークは,従来の検索手法とオルソドックスエンコーダデコーダ法を協調して,検索した文中の多様な表現を描画するだけでなく,ビデオの自然な,正確な内容を生成する。
論文 参考訳(メタデータ) (2021-03-09T08:17:17Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。