論文の概要: Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning
- arxiv url: http://arxiv.org/abs/2203.02573v1
- Date: Fri, 4 Mar 2022 21:09:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 14:40:21.246443
- Title: Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning
- Title(参考訳): マルチモーダルコンディショニングによるビデオ合成
- Authors: Ligong Han and Jian Ren and Hsin-Ying Lee and Francesco Barbieri and
Kyle Olszewski and Shervin Minaee and Dimitris Metaxas and Sergey Tulyakov
- Abstract要約: 本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
- 参考スコア(独自算出の注目度): 36.85533835408882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most methods for conditional video synthesis use a single modality as the
condition. This comes with major limitations. For example, it is problematic
for a model conditioned on an image to generate a specific motion trajectory
desired by the user since there is no means to provide motion information.
Conversely, language information can describe the desired motion, while not
precisely defining the content of the video. This work presents a multimodal
video generation framework that benefits from text and images provided jointly
or separately. We leverage the recent progress in quantized representations for
videos and apply a bidirectional transformer with multiple modalities as inputs
to predict a discrete video representation. To improve video quality and
consistency, we propose a new video token trained with self-learning and an
improved mask-prediction algorithm for sampling video tokens. We introduce text
augmentation to improve the robustness of the textual representation and
diversity of generated videos. Our framework can incorporate various visual
modalities, such as segmentation masks, drawings, and partially occluded
images. It can generate much longer sequences than the one used for training.
In addition, our model can extract visual information as suggested by the text
prompt, e.g., "an object in image one is moving northeast", and generate
corresponding videos. We run evaluations on three public datasets and a newly
collected dataset labeled with facial attributes, achieving state-of-the-art
generation results on all four.
- Abstract(参考訳): 条件付きビデオ合成のほとんどの方法は、条件として単一のモダリティを用いる。
これには大きな制限がある。
例えば、画像に条件付けされたモデルが、動き情報を提供する手段がないため、ユーザが望む特定の動き軌跡を生成することは問題となる。
逆に、言語情報はビデオの内容を正確に定義することなく、所望の動作を記述できる。
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本研究では,映像の量子化表現の最近の進歩を活かし,複数のモードを持つ双方向トランスを入力として適用し,離散的な映像表現を予測する。
ビデオの品質と一貫性を向上させるために,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
生成したビデオのテキスト表現と多様性の堅牢性を改善するためにテキスト拡張を導入する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
トレーニングに使用されるものよりもずっと長いシーケンスを生成することができる。
さらに,本モデルでは,テキストプロンプトによって提案される視覚情報,例えば「画像中の物体が北東に移動している」を抽出し,対応する映像を生成する。
3つの公開データセットと新たに収集した顔属性付きデータセットで評価を行い,4つすべてで最新生成結果を得た。
関連論文リスト
- InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。
本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。
提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Phenaki: Variable Length Video Generation From Open Domain Textual
Description [21.610541668826006]
フェナキ(Phenaki)は、一連のテキストプロンプトを与えられたリアルなビデオ合成が可能なモデルである。
ビデオ表現を学習する新しいモデルは、ビデオを離散トークンの小さな表現に圧縮する。
私たちの知る限りでは、論文が時間変化プロンプトからビデオを生成するのは今回が初めてです。
論文 参考訳(メタデータ) (2022-10-05T17:18:28Z) - Multimodal Frame-Scoring Transformer for Video Summarization [4.266320191208304]
MFST(Multimodal Frame-Scoring Transformer)フレームワークは、視覚的、テキスト、オーディオ機能を利用して、フレームに関するビデオをスコアする。
MFSTフレームワークは、事前に訓練されたエンコーダを用いて、まず各モダリティ特徴(視覚-テキスト-オーディオ)を抽出する。
MFSTは、ビデオテキスト・オーディオ表現を入力として使用し、フレームレベルのスコアを予測するマルチモーダル・フレーム・スコリング・トランスフォーマーを訓練する。
論文 参考訳(メタデータ) (2022-07-05T05:14:15Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。