Fugu-MT 論文翻訳(概要): Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach

論文の概要: Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach

arxiv url: http://arxiv.org/abs/2410.03160v1
Date: Fri, 4 Oct 2024 05:47:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-03 03:24:16.247128
Title: Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach
Title（参考訳）: ビデオ拡散における時間的モデリングの再定義:ベクトル化された時間ステップアプローチ
Authors: Yaofang Liu, Yumeng Ren, Xiaodong Cun, Aitor Artola, Yang Liu, Tieyong Zeng, Raymond H. Chan, Jean-michel Morel,
Abstract要約: フレーム対応ビデオ拡散モデル(FVDM)を提案する。我々のアプローチでは、各フレームが独立したノイズスケジュールに従うことができ、モデルのキャパシティを高めて、きめ細かい時間依存性を捉えることができる。実験により、FVDMは映像生成品質において最先端の手法よりも優れ、拡張タスクにも優れることが示された。
参考スコア（独自算出の注目度）: 29.753974393652356
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have revolutionized image generation, and their extension to video generation has shown promise. However, current video diffusion models~(VDMs) rely on a scalar timestep variable applied at the clip level, which limits their ability to model complex temporal dependencies needed for various tasks like image-to-video generation. To address this limitation, we propose a frame-aware video diffusion model~(FVDM), which introduces a novel vectorized timestep variable~(VTV). Unlike conventional VDMs, our approach allows each frame to follow an independent noise schedule, enhancing the model's capacity to capture fine-grained temporal dependencies. FVDM's flexibility is demonstrated across multiple tasks, including standard video generation, image-to-video generation, video interpolation, and long video synthesis. Through a diverse set of VTV configurations, we achieve superior quality in generated videos, overcoming challenges such as catastrophic forgetting during fine-tuning and limited generalizability in zero-shot methods.Our empirical evaluations show that FVDM outperforms state-of-the-art methods in video generation quality, while also excelling in extended tasks. By addressing fundamental shortcomings in existing VDMs, FVDM sets a new paradigm in video synthesis, offering a robust framework with significant implications for generative modeling and multimedia applications.
Abstract（参考訳）: 拡散モデルは画像生成に革命をもたらし、ビデオ生成への拡張は将来性を示している。しかしながら、現在のビデオ拡散モデル~(VDM)は、クリップレベルで適用されるスカラータイムステップ変数に依存しており、画像からビデオ生成のような様々なタスクに必要な複雑な時間依存性をモデル化する能力を制限する。この制限に対処するため,新しいベクトル化タイムステップ変数~(VTV)を導入したフレーム対応ビデオ拡散モデル~(FVDM)を提案する。従来のVDMとは異なり、我々の手法では各フレームが独立したノイズスケジュールに従うことができ、モデルが微粒な時間依存性を捉える能力を高めることができる。 FVDMの柔軟性は、標準的なビデオ生成、画像間生成、ビデオ補間、長いビデオ合成など、複数のタスクで実証されている。様々なVTV構成により、ゼロショット法における微調整時の破滅的な忘れ込みや限定的な一般化性といった課題を克服し、生成ビデオの質の向上を実現し、FVDMはビデオ生成品質において最先端の手法よりも優れ、拡張タスクにも優れることを示す実験的な評価を行った。既存のVDMの根本的な欠点に対処することで、FVDMはビデオ合成の新しいパラダイムを設定し、生成モデリングやマルチメディアアプリケーションに重要な意味を持つ堅牢なフレームワークを提供する。

関連論文リスト

VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models [50.45115303046294]
ビデオ拡散モデル(VDM)は本質的に被写体の特徴を抽出し注入する力を持っている。高品質なゼロショットカスタマイズビデオ生成を実現するために,VDM固有の力を利用する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-27T13:49:25Z)
Multimodal Instruction Tuning with Hybrid State Space Models [25.921044010033267]
長いコンテキストは、多モーダルな大言語モデルの認識と理解能力を高めるために不可欠である。本稿では,マルチモーダルアプリケーションにおける長時間のコンテキストを効率的に扱うために,ハイブリッドトランスフォーマー-MAMBAモデルを用いた新しい手法を提案する。本モデルでは,高解像度画像と高フレーム映像の推論効率を現行モデルに比べて約4倍向上させる。
論文参考訳（メタデータ） (2024-11-13T18:19:51Z)
ViD-GPT: Introducing GPT-style Autoregressive Generation in Video Diffusion Models [66.84478240757038]
ビデオ拡散モデル(VDM)の大多数は、自己回帰的な方法で長いビデオを生成する。我々は、VDMに因果生成(すなわち一方向)を導入し、過去のフレームを将来のフレームを生成するプロンプトとして利用する。我々のVD-GPTは、長大なビデオ生成において、定量的かつ質的に最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-16T15:37:22Z)
Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-12T21:44:04Z)
Video Interpolation with Diffusion Models [54.06746595879689]
本稿では,ビデオ生成モデルであるVIDIMについて述べる。 VIDIMはカスケード拡散モデルを用いて、まず低解像度でターゲット映像を生成し、次に低解像度で生成されたビデオに条件付けされた高解像度映像を生成する。
論文参考訳（メタデータ） (2024-04-01T15:59:32Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
GD-VDM: Generated Depth for better Diffusion-based Video Generation [18.039417502897486]
本稿では,映像生成のための新しい拡散モデルGD-VDMを提案する。また,GD-VDMをCityscapesデータセット上で評価した結果,自然ベースラインよりも多様で複雑なシーンが生成されることがわかった。
論文参考訳（メタデータ） (2023-06-19T21:32:10Z)
Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。 PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文参考訳（メタデータ） (2023-02-15T14:22:34Z)
VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文参考訳（メタデータ） (2022-12-01T02:58:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。