論文の概要: Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet
Representation
- arxiv url: http://arxiv.org/abs/2402.13729v1
- Date: Wed, 21 Feb 2024 11:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 15:44:09.431333
- Title: Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet
Representation
- Title(参考訳): 2次元三平面と3次元ウェーブレット表現を用いたハイブリッドビデオ拡散モデル
- Authors: Kihong Kim, Haneol Lee, Jihye Park, Seyeon Kim, Kwanghee Lee,
Seungryong Kim, Jaejun Yoo
- Abstract要約: 複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
- 参考スコア(独自算出の注目度): 37.30927036754384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating high-quality videos that synthesize desired realistic content is a
challenging task due to their intricate high-dimensionality and complexity of
videos. Several recent diffusion-based methods have shown comparable
performance by compressing videos to a lower-dimensional latent space, using
traditional video autoencoder architecture. However, such method that employ
standard frame-wise 2D and 3D convolution fail to fully exploit the
spatio-temporal nature of videos. To address this issue, we propose a novel
hybrid video diffusion model, called HVDM, which can capture spatio-temporal
dependencies more effectively. The HVDM is trained by a hybrid video
autoencoder which extracts a disentangled representation of the video
including: (i) a global context information captured by a 2D projected latent
(ii) a local volume information captured by 3D convolutions with wavelet
decomposition (iii) a frequency information for improving the video
reconstruction. Based on this disentangled representation, our hybrid
autoencoder provide a more comprehensive video latent enriching the generated
videos with fine structures and details. Experiments on video generation
benchamarks (UCF101, SkyTimelapse, and TaiChi) demonstrate that the proposed
approach achieves state-of-the-art video generation quality, showing a wide
range of video applications (e.g., long video generation, image-to-video, and
video dynamics control).
- Abstract(参考訳): 要求されるリアルなコンテンツを合成する高品質なビデオを生成することは、ビデオの複雑な高次元性と複雑さのために難しい課題である。
最近の拡散法では、従来のビデオオートエンコーダアーキテクチャを用いて、動画を低次元の潜在空間に圧縮することで同等の性能を示す。
しかし、標準的なフレームワイズ2dと3dコンボリューションを用いる手法では、ビデオの時空間的性質を十分に活用できない。
この問題に対処するために,時空間依存性をより効果的にキャプチャできるHVDMと呼ばれるハイブリッドビデオ拡散モデルを提案する。
HVDMはハイブリッドビデオオートエンコーダによってトレーニングされ、ビデオの非絡み合った表現を抽出する。
(i)2次元投影潜水士が捉えたグローバルコンテキスト情報
(ii)ウェーブレット分解を伴う3次元畳み込みによる局所ボリューム情報
(iii)映像再構成を改善するための周波数情報。
この不整合表現に基づいて、我々のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加したより包括的なビデオラテントを提供する。
ビデオ生成ベンチラマーク(UCF101、SkyTimelapse、TaiChi)の実験は、提案手法が最先端のビデオ生成品質を達成し、幅広いビデオアプリケーション(例えば、ロングビデオ生成、イメージ・トゥ・ビデオ、ビデオダイナミックス制御)を示すことを示した。
関連論文リスト
- Implicit-explicit Integrated Representations for Multi-view Video
Compression [40.86402535896703]
マルチビュービデオ圧縮のための暗黙的・明示的統合表現を提案する。
提案するフレームワークは,暗黙的なニューラル表現と明示的な2Dデータセットの長所を組み合わせたものだ。
提案するフレームワークは,最新のマルチビュービデオ圧縮標準MIVに匹敵する,あるいはさらに優れた性能を実現することができる。
論文 参考訳(メタデータ) (2023-11-29T04:15:57Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - VideoFactory: Swap Attention in Spatiotemporal Diffusions for
Text-to-Video Generation [57.98975319014234]
VideoFactoryはハイデフィニション(1376x768)、ワイドスクリーン(16:9)の動画を透かしなしで制作できる。
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。