Fugu-MT 論文翻訳(概要): GD-VDM: Generated Depth for better Diffusion-based Video Generation

論文の概要: GD-VDM: Generated Depth for better Diffusion-based Video Generation

arxiv url: http://arxiv.org/abs/2306.11173v1
Date: Mon, 19 Jun 2023 21:32:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-21 16:22:53.223792
Title: GD-VDM: Generated Depth for better Diffusion-based Video Generation
Title（参考訳）: GD-VDM:より良い拡散型ビデオ生成のための深度生成
Authors: Ariel Lapid, Idan Achituve, Lior Bracha, Ethan Fetaya
Abstract要約: 本稿では,映像生成のための新しい拡散モデルGD-VDMを提案する。また,GD-VDMをCityscapesデータセット上で評価した結果,自然ベースラインよりも多様で複雑なシーンが生成されることがわかった。
参考スコア（独自算出の注目度）: 18.039417502897486
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The field of generative models has recently witnessed significant progress, with diffusion models showing remarkable performance in image generation. In light of this success, there is a growing interest in exploring the application of diffusion models to other modalities. One such challenge is the generation of coherent videos of complex scenes, which poses several technical difficulties, such as capturing temporal dependencies and generating long, high-resolution videos. This paper proposes GD-VDM, a novel diffusion model for video generation, demonstrating promising results. GD-VDM is based on a two-phase generation process involving generating depth videos followed by a novel diffusion Vid2Vid model that generates a coherent real-world video. We evaluated GD-VDM on the Cityscapes dataset and found that it generates more diverse and complex scenes compared to natural baselines, demonstrating the efficacy of our approach.
Abstract（参考訳）: 生成モデルの分野は、画像生成において顕著な性能を示す拡散モデルによって、最近大きく進歩している。この成功を踏まえて、他のモダリティへの拡散モデルの適用を探求することへの関心が高まっている。そのような課題の1つは、複雑なシーンのコヒーレントなビデオを生成することである。本稿では,ビデオ生成のための新しい拡散モデルであるgd-vdmを提案する。 GD-VDMは、深度ビデオの生成と、コヒーレントな現実世界のビデオを生成する新しい拡散Vid2Vidモデルを含む2相生成プロセスに基づいている。また,GD-VDMをCityscapesデータセット上で評価した結果,自然ベースラインよりも多様で複雑なシーンが生成され,アプローチの有効性が示された。

関連論文リスト

Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach [29.753974393652356]
フレーム対応ビデオ拡散モデル(FVDM)を提案する。我々のアプローチでは、各フレームが独立したノイズスケジュールに従うことができ、モデルのキャパシティを高めて、きめ細かい時間依存性を捉えることができる。実験により、FVDMは映像生成品質において最先端の手法よりも優れ、拡張タスクにも優れることが示された。
論文参考訳（メタデータ） (2024-10-04T05:47:39Z)
JVID: Joint Video-Image Diffusion for Visual-Quality and Temporal-Consistency in Video Generation [6.463753697299011]
高品質な時間的コヒーレントなビデオを生成するための新しいアプローチであるJVID(Joint Video-Image Diffusion Model)を導入する。その結果,現実的かつ一貫性のあるビデオの制作において,定量的かつ質的な改善が示された。
論文参考訳（メタデータ） (2024-09-21T13:59:50Z)
Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-12T21:44:04Z)
A Survey on Video Diffusion Models [103.03565844371711]
AI生成コンテンツ(AIGC)の最近の波は、コンピュータビジョンでかなりの成功を収めている。その印象的な生成能力のため、拡散モデルは徐々にGANと自動回帰変換器に基づく手法に取って代わられている。本稿では,AIGC時代の映像拡散モデルについて概観する。
論文参考訳（メタデータ） (2023-10-16T17:59:28Z)
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文参考訳（メタデータ） (2023-09-26T17:52:03Z)
Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。 PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文参考訳（メタデータ） (2023-02-15T14:22:34Z)
VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文参考訳（メタデータ） (2022-12-01T02:58:46Z)
A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文参考訳（メタデータ） (2022-09-06T16:56:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。