Fugu-MT 論文翻訳(概要): Video Probabilistic Diffusion Models in Projected Latent Space

論文の概要: Video Probabilistic Diffusion Models in Projected Latent Space

arxiv url: http://arxiv.org/abs/2302.07685v1
Date: Wed, 15 Feb 2023 14:22:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-16 14:47:32.902606
Title: Video Probabilistic Diffusion Models in Projected Latent Space
Title（参考訳）: 投影潜在空間におけるビデオ確率拡散モデル
Authors: Sihyun Yu, Kihyuk Sohn, Subin Kim, Jinwoo Shin
Abstract要約: 我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。 PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
参考スコア（独自算出の注目度）: 75.4253202574722
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the remarkable progress in deep generative models, synthesizing high-resolution and temporally coherent videos still remains a challenge due to their high-dimensionality and complex temporal dynamics along with large spatial variations. Recent works on diffusion models have shown their potential to solve this challenge, yet they suffer from severe computation- and memory-inefficiency that limit the scalability. To handle this issue, we propose a novel generative model for videos, coined projected latent video diffusion models (PVDM), a probabilistic diffusion model which learns a video distribution in a low-dimensional latent space and thus can be efficiently trained with high-resolution videos under limited resources. Specifically, PVDM is composed of two components: (a) an autoencoder that projects a given video as 2D-shaped latent vectors that factorize the complex cubic structure of video pixels and (b) a diffusion model architecture specialized for our new factorized latent space and the training/sampling procedure to synthesize videos of arbitrary length with a single model. Experiments on popular video generation datasets demonstrate the superiority of PVDM compared with previous video synthesis methods; e.g., PVDM obtains the FVD score of 639.7 on the UCF-101 long video (128 frames) generation benchmark, which improves 1773.4 of the prior state-of-the-art.
Abstract（参考訳）: 深部生成モデルの顕著な進歩にもかかわらず、高解像度かつ時間的コヒーレントなビデオの合成は、その高次元性と複雑な時間的ダイナミクスと大きな空間的変動により依然として課題である。拡散モデルに関する最近の研究は、この課題を解決する可能性を示しているが、スケーラビリティを制限する厳密な計算とメモリ効率に悩まされている。そこで本研究では,低次元潜時空間における映像分布を学習し,限られた資源で高分解能映像を効率的に訓練できる確率的拡散モデルであるpvdm(projected latent video diffusion model)を提案する。具体的にはPVDMは2つのコンポーネントから構成される。 (a)ビデオ画素の複雑な立方体構造を分解する2D字型潜在ベクトルとして映像を投影するオートエンコーダ b)新しい因子化潜在空間と任意の長さの映像を単一のモデルで合成する訓練/サンプリング手順に特化した拡散モデルアーキテクチャ。例えば、PVDMはUCF-101長ビデオ(128フレーム)生成ベンチマークでFVDスコア639.7を取得し、従来の最先端の1773.4を改善している。

関連論文リスト

CascadeV: An Implementation of Wurstchen Architecture for Video Generation [4.086317089863318]
本稿では,最先端の2K解像度ビデオを生成することができるLDM(Latent diffusion model)を提案する。実験により, 高い圧縮比を達成でき, 高品質ビデオ生成に伴う計算課題を大幅に削減できることが示された。我々のモデルは既存のT2Vモデルとカスケードすることができ、理論的には、微調整なしで4$times$の解像度やフレームを毎秒増加させることができる。
論文参考訳（メタデータ） (2025-01-28T01:14:24Z)
Four-Plane Factorized Video Autoencoders [44.00676320678128]
本稿では,入力サイズと直交的に成長する4平面の因数分解潜在空間にデータを投影するオートエンコーダを提案する。提案した4面ラテント空間は高忠実度再構成に必要なリッチな表現を保っていることを示す。
論文参考訳（メタデータ） (2024-12-05T18:58:17Z)
ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文参考訳（メタデータ） (2024-10-27T16:28:28Z)
Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach [29.753974393652356]
フレーム対応ビデオ拡散モデル(FVDM)を提案する。我々のアプローチでは、各フレームが独立したノイズスケジュールに従うことができ、モデルのキャパシティを高めて、きめ細かい時間依存性を捉えることができる。実験により、FVDMは映像生成品質において最先端の手法よりも優れ、拡張タスクにも優れることが示された。
論文参考訳（メタデータ） (2024-10-04T05:47:39Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning [36.378348127629195]
ビデオ合成モデルのための新しいポストチューニング手法であるExVideoを提案する。このアプローチは、現在のビデオ合成モデルの能力を向上し、時間的長期にわたってコンテンツを制作できるように設計されている。当社のアプローチでは、40Kビデオからなるデータセット上でのトレーニングに15kのGPU時間しか必要とせず、オリジナルのフレーム数に対して最大5倍の価格で生成可能なモデル容量を拡大しています。
論文参考訳（メタデータ） (2024-06-20T09:18:54Z)
GD-VDM: Generated Depth for better Diffusion-based Video Generation [18.039417502897486]
本稿では,映像生成のための新しい拡散モデルGD-VDMを提案する。また,GD-VDMをCityscapesデータセット上で評価した結果,自然ベースラインよりも多様で複雑なシーンが生成されることがわかった。
論文参考訳（メタデータ） (2023-06-19T21:32:10Z)
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文参考訳（メタデータ） (2023-04-18T08:30:32Z)
Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文参考訳（メタデータ） (2022-11-23T18:58:39Z)
Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文参考訳（メタデータ） (2022-10-05T14:41:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。