Fugu-MT 論文翻訳(概要): JVID: Joint Video-Image Diffusion for Visual-Quality and Temporal-Consistency in Video Generation

論文の概要: JVID: Joint Video-Image Diffusion for Visual-Quality and Temporal-Consistency in Video Generation

arxiv url: http://arxiv.org/abs/2409.14149v1
Date: Fri, 27 Sep 2024 10:32:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 03:22:12.000919
Title: JVID: Joint Video-Image Diffusion for Visual-Quality and Temporal-Consistency in Video Generation
Title（参考訳）: JVID:映像生成における視覚的品質と時間的一貫性のための共同映像拡散
Authors: Hadrien Reynaud, Matthew Baugh, Mischa Dombrowski, Sarah Cechnicka, Qingjie Meng, Bernhard Kainz,
Abstract要約: 高品質な時間的コヒーレントなビデオを生成するための新しいアプローチであるJVID(Joint Video-Image Diffusion Model)を導入する。その結果,現実的かつ一貫性のあるビデオの制作において,定量的かつ質的な改善が示された。
参考スコア（独自算出の注目度）: 6.463753697299011
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce the Joint Video-Image Diffusion model (JVID), a novel approach to generating high-quality and temporally coherent videos. We achieve this by integrating two diffusion models: a Latent Image Diffusion Model (LIDM) trained on images and a Latent Video Diffusion Model (LVDM) trained on video data. Our method combines these models in the reverse diffusion process, where the LIDM enhances image quality and the LVDM ensures temporal consistency. This unique combination allows us to effectively handle the complex spatio-temporal dynamics in video generation. Our results demonstrate quantitative and qualitative improvements in producing realistic and coherent videos.
Abstract（参考訳）: 高品質かつ時間的に整合したビデオを生成するための新しいアプローチであるJVID(Joint Video-Image Diffusion Model)を導入する。本研究では,2つの拡散モデルを統合することで,画像上で訓練された潜時画像拡散モデル(LIDM)と映像データ上で訓練された潜時映像拡散モデル(LVDM)を組み合わせる。 LIDMは画像品質を高め,LVDMは時間的整合性を確保する。このユニークな組み合わせにより、ビデオ生成における複雑な時空間力学を効果的に扱うことができる。その結果,現実的かつ一貫性のあるビデオの制作において,定量的かつ質的な改善が示された。

関連論文リスト

SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文参考訳（メタデータ） (2024-06-06T17:58:27Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文参考訳（メタデータ） (2023-11-25T22:28:38Z)
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文参考訳（メタデータ） (2023-09-26T17:52:03Z)
GD-VDM: Generated Depth for better Diffusion-based Video Generation [18.039417502897486]
本稿では,映像生成のための新しい拡散モデルGD-VDMを提案する。また,GD-VDMをCityscapesデータセット上で評価した結果,自然ベースラインよりも多様で複雑なシーンが生成されることがわかった。
論文参考訳（メタデータ） (2023-06-19T21:32:10Z)
Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文参考訳（メタデータ） (2023-04-18T08:30:32Z)
Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。 PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文参考訳（メタデータ） (2023-02-15T14:22:34Z)
VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文参考訳（メタデータ） (2022-12-01T02:58:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。