論文の概要: DTVNet+: A High-Resolution Scenic Dataset for Dynamic Time-lapse Video
Generation
- arxiv url: http://arxiv.org/abs/2008.04776v2
- Date: Fri, 17 Dec 2021 15:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 11:54:32.644950
- Title: DTVNet+: A High-Resolution Scenic Dataset for Dynamic Time-lapse Video
Generation
- Title(参考訳): DTVNet+:動的タイムラプスビデオ生成のための高解像度シナリオデータセット
- Authors: Jiangning Zhang, Chao Xu, Yong Liu, Yunliang Jiang
- Abstract要約: 提案したDTVNetは, EmphOptical Flow vectors (OFE) と emphDynamic Video Generator (DVG) の2つのサブモジュールから構成される。
OFEは、生成されたビデオの動作情報をエンコードするエン平滑化運動ベクトルに、一連の光学フローマップをマッピングする。
DVGは、モーションベクトルと単一のランドスケープ画像から学ぶための動きとコンテンツストリームを含む。
- 参考スコア(独自算出の注目度): 19.871879951436462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel end-to-end dynamic time-lapse video generation
framework, named DTVNet, to generate diversified time-lapse videos from a
single landscape image conditioned on normalized motion vectors. The proposed
DTVNet consists of two submodules: \emph{Optical Flow Encoder} (OFE) and
\emph{Dynamic Video Generator} (DVG). The OFE maps a sequence of optical flow
maps to a \emph{normalized motion vector} that encodes the motion information
of the generated video. The DVG contains motion and content streams to learn
from the motion vector and the single landscape image. Besides, it contains an
encoder to learn shared content features and a decoder to construct video
frames with corresponding motion. Specifically, the \emph{motion stream}
introduces multiple \emph{adaptive instance normalization} (AdaIN) layers to
integrate multi-level motion information for controlling the object motion. In
the testing stage, videos with the same content but various motion information
can be generated by different \emph{normalized motion vectors} based on only
one input image. Also, we propose a high-resolution scenic time-lapse video
dataset, named Quick-Sky-Time, to evaluate different approaches, which can be
viewed as a new benchmark for high-quality scenic image and video generation
tasks. We further conduct experiments on Sky Time-lapse, Beach, and
Quick-Sky-Time datasets. The results demonstrate the superiority of our
approach over state-of-the-art methods for generating high-quality and various
dynamic videos.
- Abstract(参考訳): 本稿では, DTVNet という新しい動的時間ラプス映像生成フレームワークを提案し, 正規化された動きベクトルを条件とした単一風景画像から, 多様な時間ラプス映像を生成する。
提案したDTVNetは2つのサブモジュールからなる: \emph{Optical Flow Encoder} (OFE) と \emph{Dynamic Video Generator} (DVG)。
OFEは、生成されたビデオの動き情報をエンコードする \emph{normalized motion vector} に光学フローマップのシーケンスをマッピングする。
dvgは、動きベクトルと1つのランドスケープ画像から学習するための動きとコンテンツストリームを含む。
さらに、共有コンテンツ特徴を学習するエンコーダと、対応するモーションでビデオフレームを構築するデコーダとを含む。
具体的には、複数の \emph{adaptive instance normalization} (AdaIN) レイヤを導入し、オブジェクトの動きを制御するためのマルチレベルモーション情報を統合する。
テスト段階では、1つの入力画像のみに基づいて異なる \emph{normalized motion vector} によって、同じ内容の様々な動き情報を持つビデオを生成することができる。
また,高画質映像と映像生成タスクのための新たなベンチマークとして,異なるアプローチを評価するために,quick-sky-timeという高精細なタイムラプス映像データセットを提案する。
さらに,スカイタイムラプス,ビーチ,クイックスカイタイムデータセットの実験を行う。
その結果,高品質で多様なダイナミックビデオを生成するための最先端手法よりも優れた手法が得られた。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - MotionVideoGAN: A Novel Video Generator Based on the Motion Space
Learned from Image Pairs [16.964371778504297]
我々は、事前訓練された画像ペア生成器によって学習された動き空間に基づいて、動画を合成する新しいビデオジェネレータであるMotionVideoGANを紹介する。
モーションコードは、編集された画像が同じ内容を共有するため、モーション空間内の画像を編集するのに役立ちます。
提案手法は,未条件のビデオ生成評価に使用される最も複雑なビデオデータセットであるUCF101に対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-06T05:52:13Z) - Learning Fine-Grained Motion Embedding for Landscape Animation [140.57889994591494]
ファイングラインド・モーション・埋め込みを学習し,高品質でリアルな映像を生成するモデルFGLAを提案する。
多様なタイムラプスビデオのトレーニングと評価を行うため、Diverseのシーンを用いた最大の高解像度タイムラプスビデオデータセットを構築した。
提案手法は,LIPISが19%,FVDが5.6%向上した。
論文 参考訳(メタデータ) (2021-09-06T02:47:11Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z) - Vid-ODE: Continuous-Time Video Generation with Neural Ordinary
Differential Equation [42.85126020237214]
本稿では,ニューラルODE(Vid-ODE)と画素レベルの画像処理技術を組み合わせた連続時間ビデオ生成を提案する。
Vid-ODEは、現実世界のビデオを使った連続的なビデオ生成を成功させた最初の作品である。
論文 参考訳(メタデータ) (2020-10-16T06:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。