論文の概要: Masked Conditional Video Diffusion for Prediction, Generation, and
Interpolation
- arxiv url: http://arxiv.org/abs/2205.09853v1
- Date: Thu, 19 May 2022 20:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-23 13:15:54.288473
- Title: Masked Conditional Video Diffusion for Prediction, Generation, and
Interpolation
- Title(参考訳): 予測・生成・補間のためのマスキング条件付き映像拡散
- Authors: Vikram Voleti and Alexia Jolicoeur-Martineau and Christopher Pal
- Abstract要約: Masked Conditional Video Diffusion (MCVD) はビデオ予測のための汎用フレームワークである。
私たちは、過去のフレームや将来のフレームをすべて無作為に、無作為に、独立してマスクする方法でモデルをトレーニングします。
提案手法は,1~12日で計算時間を計測し,標準的なビデオ予測ベンチマークにまたがってSOTA結果を生成する。
- 参考スコア(独自算出の注目度): 14.631523634811392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video prediction is a challenging task. The quality of video frames from
current state-of-the-art (SOTA) generative models tends to be poor and
generalization beyond the training data is difficult. Furthermore, existing
prediction frameworks are typically not capable of simultaneously handling
other video-related tasks such as unconditional generation or interpolation. In
this work, we devise a general-purpose framework called Masked Conditional
Video Diffusion (MCVD) for all of these video synthesis tasks using a
probabilistic conditional score-based denoising diffusion model, conditioned on
past and/or future frames. We train the model in a manner where we randomly and
independently mask all the past frames or all the future frames. This novel but
straightforward setup allows us to train a single model that is capable of
executing a broad range of video tasks, specifically: future/past prediction --
when only future/past frames are masked; unconditional generation -- when both
past and future frames are masked; and interpolation -- when neither past nor
future frames are masked. Our experiments show that this approach can generate
high-quality frames for diverse types of videos. Our MCVD models are built from
simple non-recurrent 2D-convolutional architectures, conditioning on blocks of
frames and generating blocks of frames. We generate videos of arbitrary lengths
autoregressively in a block-wise manner. Our approach yields SOTA results
across standard video prediction and interpolation benchmarks, with computation
times for training models measured in 1-12 days using $\le$ 4 GPUs.
https://mask-cond-video-diffusion.github.io
- Abstract(参考訳): ビデオの予測は難しい課題だ。
現在のSOTA(State-of-the-art Generative Model)の映像フレームの品質は低い傾向にあり、トレーニングデータ以外の一般化は難しい。
さらに、既存の予測フレームワークは、通常、無条件生成や補間といった他のビデオ関連タスクを同時に処理できない。
本研究では,これらすべてのビデオ合成タスクに対して,過去および/または将来のフレームに条件付された確率的条件付きスコアに基づくデノナイジング拡散モデルを用いて,Masked Conditional Video Diffusion (MCVD) と呼ばれる汎用フレームワークを考案する。
私たちは、過去のフレームや将来のフレームをすべてランダムかつ独立にマスクする方法でモデルをトレーニングします。
未来/ペースト予測(future/past prediction) - 未来/ペーストフレームだけがマスクされている場合、無条件生成(unconditional generation) - 過去と将来のフレームの両方がマスクされている場合、そして、過去と将来のフレームがマスクされていない場合の補間。
実験により,様々な種類のビデオに対して高品質なフレームを生成することが可能であることが確認された。
MCVDモデルは、単純な再帰的2次元畳み込みアーキテクチャ、フレームブロックの条件付け、フレームブロックの生成から構築されている。
我々はブロックワイズで任意の長さのビデオを自動回帰的に生成する。
提案手法は,標準的なビデオ予測と補間ベンチマークにまたがってSOTA結果を出力し,1~12日で測定したトレーニングモデルの計算時間を$$$\le$4 GPUで行う。
https://mask-cond-video-diffusion.github.io
関連論文リスト
- ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。
我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。
我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-16T15:37:22Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - STDiff: Spatio-temporal Diffusion for Continuous Stochastic Video
Prediction [20.701792842768747]
時間領域上に無限次元の潜伏変数を持つ新しい映像予測モデルを提案する。
我々のモデルは、時間的連続予測、すなわち教師なしの方法で、任意に高いフレームレートで予測することができる。
論文 参考訳(メタデータ) (2023-12-11T16:12:43Z) - FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - A unified model for continuous conditional video prediction [14.685237010856953]
条件付きビデオ予測タスクは通常、タスク関連モデルによって解決される。
ほぼ全ての条件付きビデオ予測モデルは、離散的な予測しか達成できない。
本稿では,これら2つの問題を同時に扱う統一モデルを提案する。
論文 参考訳(メタデータ) (2022-10-11T22:26:59Z) - VMFormer: End-to-End Video Matting with Transformer [48.97730965527976]
ビデオマッティングは、与えられた入力ビデオシーケンスから各フレームのアルファマットを予測することを目的としている。
ビデオマッチングの最近のソリューションは、ディープ畳み込みニューラルネットワーク(CNN)によって支配されている。
ビデオ・マッティングのためのトランスフォーマー・ベース・エンド・ツー・エンド方式であるVMFormerを提案する。
論文 参考訳(メタデータ) (2022-08-26T17:51:02Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。