論文の概要: Tell Me What Happened: Unifying Text-guided Video Completion via
Multimodal Masked Video Generation
- arxiv url: http://arxiv.org/abs/2211.12824v1
- Date: Wed, 23 Nov 2022 10:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 13:56:03.764341
- Title: Tell Me What Happened: Unifying Text-guided Video Completion via
Multimodal Masked Video Generation
- Title(参考訳): 何が起きたのか:マルチモーダルマスクビデオ生成によるテキストガイドビデオの完成
- Authors: Tsu-Jui Fu, Licheng Yu, Ning Zhang, Cheng-Yang Fu, Jong-Chyi Su,
William Yang Wang, Sean Bell
- Abstract要約: そこで本研究では,命令で案内された部分フレームから映像を生成することをモデルに要求する,新しいタスクであるテキスト誘導ビデオ補完(TVC)を提案する。
次に,このTVC課題に対処するため,MMVG(Multimodal Masked Video Generation)を提案する。
推測時に、単一のMMVGモデルは、対応するマスキング条件を適用することで、ビデオ予測、巻き戻し、埋め込みを含むTVCの3つのケースすべてに対処することができる。
- 参考スコア(独自算出の注目度): 82.26026492545533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating a video given the first several static frames is challenging as it
anticipates reasonable future frames with temporal coherence. Besides video
prediction, the ability to rewind from the last frame or infilling between the
head and tail is also crucial, but they have rarely been explored for video
completion. Since there could be different outcomes from the hints of just a
few frames, a system that can follow natural language to perform video
completion may significantly improve controllability. Inspired by this, we
introduce a novel task, text-guided video completion (TVC), which requests the
model to generate a video from partial frames guided by an instruction. We then
propose Multimodal Masked Video Generation (MMVG) to address this TVC task.
During training, MMVG discretizes the video frames into visual tokens and masks
most of them to perform video completion from any time point. At inference
time, a single MMVG model can address all 3 cases of TVC, including video
prediction, rewind, and infilling, by applying corresponding masking
conditions. We evaluate MMVG in various video scenarios, including egocentric,
animation, and gaming. Extensive experimental results indicate that MMVG is
effective in generating high-quality visual appearances with text guidance for
TVC.
- Abstract(参考訳): 最初のいくつかの静的フレームを与えられたビデオを生成することは、時間的コヒーレンスで合理的な将来のフレームを予測できるため、難しい。
ビデオ予測の他に、最後のフレームから巻き戻したり、頭と尾の間に埋め込む能力も重要であるが、ビデオ補完のために探索されることはめったにない。
ほんの数フレームのヒントから異なる結果が得られる可能性があるため、自然言語に従ってビデオ補完を行うシステムは、制御性を大幅に改善する可能性がある。
そこで本研究では,テキスト誘導ビデオ補完(TVC)という新たなタスクを導入し,命令で案内された部分フレームから映像を生成することをモデルに要求する。
次に,このTVC課題に対処するため,MMVG(Multimodal Masked Video Generation)を提案する。
トレーニング中、MMVGはビデオフレームを視覚トークンとマスクに識別し、そのほとんどが任意の時点からビデオ補完を行う。
推測時に、単一のMMVGモデルは、対応するマスキング条件を適用することで、ビデオ予測、巻き戻し、埋め込みを含むTVCの3つのケースすべてに対処することができる。
我々は、エゴセントリック、アニメーション、ゲームなど、様々なビデオシナリオでMMVGを評価する。
広汎な実験結果から,MMVGはTVCのテキスト誘導による高品質な視覚的外観の生成に有効であることが示唆された。
関連論文リスト
- ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Masked Conditional Video Diffusion for Prediction, Generation, and
Interpolation [14.631523634811392]
Masked Conditional Video Diffusion (MCVD) はビデオ予測のための汎用フレームワークである。
私たちは、過去のフレームや将来のフレームをすべて無作為に、無作為に、独立してマスクする方法でモデルをトレーニングします。
提案手法は,1~12日で計算時間を計測し,標準的なビデオ予測ベンチマークにまたがってSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-05-19T20:58:05Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。