論文の概要: S2DM: Sector-Shaped Diffusion Models for Video Generation
- arxiv url: http://arxiv.org/abs/2403.13408v1
- Date: Wed, 20 Mar 2024 08:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 17:28:32.138403
- Title: S2DM: Sector-Shaped Diffusion Models for Video Generation
- Title(参考訳): S2DM:ビデオ生成のためのセクタ形状拡散モデル
- Authors: Haoran Lang, Yuxuan Ge, Zheng Tian,
- Abstract要約: ビデオ生成のためのセクタ型拡散モデル(S2DM)を提案する。
S2DMは、同じ意味と本質的な特徴を共有する本質的な関連データ群を生成することができる。
追加のトレーニングなしに、我々のモデルは、他の時間的条件と統合され、生成モデルは、既存の作業と同等のパフォーマンスを達成できることを示す。
- 参考スコア(独自算出の注目度): 2.0270353391739637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved great success in image generation. However, when leveraging this idea for video generation, we face significant challenges in maintaining the consistency and continuity across video frames. This is mainly caused by the lack of an effective framework to align frames of videos with desired temporal features while preserving consistent semantic and stochastic features. In this work, we propose a novel Sector-Shaped Diffusion Model (S2DM) whose sector-shaped diffusion region is formed by a set of ray-shaped reverse diffusion processes starting at the same noise point. S2DM can generate a group of intrinsically related data sharing the same semantic and stochastic features while varying on temporal features with appropriate guided conditions. We apply S2DM to video generation tasks, and explore the use of optical flow as temporal conditions. Our experimental results show that S2DM outperforms many existing methods in the task of video generation without any temporal-feature modelling modules. For text-to-video generation tasks where temporal conditions are not explicitly given, we propose a two-stage generation strategy which can decouple the generation of temporal features from semantic-content features. We show that, without additional training, our model integrated with another temporal conditions generative model can still achieve comparable performance with existing works. Our results can be viewd at https://s2dm.github.io/S2DM/.
- Abstract(参考訳): 拡散モデルは画像生成において大きな成功を収めた。
しかし、このアイデアをビデオ生成に活用する際には、ビデオフレーム間の一貫性と連続性を維持する上で大きな課題に直面している。
これは主に、一貫した意味的特徴と確率的特徴を保持しながら、ビデオのフレームを望ましい時間的特徴と整合させる効果的なフレームワークが欠如していることに起因する。
本研究では,同じ雑音点から始まる線状逆拡散過程の集合によってセクター形状の拡散領域が形成される新しいセクター形状拡散モデル(S2DM)を提案する。
S2DMは、時間的特徴を適切な誘導条件で変化させながら、同じ意味的特徴と確率的特徴を共有する本質的な関連データ群を生成することができる。
本稿では,映像生成タスクにS2DMを適用し,時間的条件として光フローを利用する方法について検討する。
実験結果から,S2DMは時間モデルモジュールを使わずに,ビデオ生成作業において多くの既存手法より優れることがわかった。
時間的条件を明示しないテキスト・ビデオ生成タスクに対しては,時間的特徴と意味的特徴を分離可能な2段階生成戦略を提案する。
追加のトレーニングなしに、我々のモデルは、他の時間的条件と統合され、生成モデルは、既存の作業と同等のパフォーマンスを達成できることを示す。
我々の結果はhttps://s2dm.github.io/S2DM/で見ることができる。
関連論文リスト
- Redefining Temporal Modeling in Video Diffusion: The Vectorized Timestep Approach [29.753974393652356]
フレーム対応ビデオ拡散モデル(FVDM)を提案する。
我々のアプローチでは、各フレームが独立したノイズスケジュールに従うことができ、モデルのキャパシティを高めて、きめ細かい時間依存性を捉えることができる。
実験により、FVDMは映像生成品質において最先端の手法よりも優れ、拡張タスクにも優れることが示された。
論文 参考訳(メタデータ) (2024-10-04T05:47:39Z) - SSM Meets Video Diffusion Models: Efficient Long-Term Video Generation with Structured State Spaces [20.23192934634197]
映像生成のための最近の拡散モデルでは、時間的特徴を抽出するために注意層を主に利用している。
この制限は拡散モデルを用いてより長いビデオシーケンスを生成する際に大きな課題をもたらす。
本研究では,状態空間モデル(SSM)を時間的特徴抽出器として活用することを提案する。
論文 参考訳(メタデータ) (2024-03-12T14:53:56Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - GD-VDM: Generated Depth for better Diffusion-based Video Generation [18.039417502897486]
本稿では,映像生成のための新しい拡散モデルGD-VDMを提案する。
また,GD-VDMをCityscapesデータセット上で評価した結果,自然ベースラインよりも多様で複雑なシーンが生成されることがわかった。
論文 参考訳(メタデータ) (2023-06-19T21:32:10Z) - Align your Latents: High-Resolution Video Synthesis with Latent
Diffusion Models [71.11425812806431]
遅延拡散モデル(LDM)は、過剰な計算要求を回避しながら高品質な画像合成を可能にする。
本稿では, LDMパラダイムを高分解能な生成, 特に資源集約的なタスクに適用する。
そこで本研究では,テキスト・ツー・ビデオ・モデリングによる実世界のシミュレーションとクリエイティブ・コンテンツ作成の2つの応用に焦点をあてる。
論文 参考訳(メタデータ) (2023-04-18T08:30:32Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Conditional Image-to-Video Generation with Latent Flow Diffusion Models [18.13991670747915]
条件付き画像合成(cI2V)は、画像と条件から始まる新しい可視映像を合成することを目的としている。
我々は,新しい潜流拡散モデル(LFDM)を用いたcI2Vのアプローチを提案する。
LFDMは、所定の条件に基づいて潜時空間内の光フローシーケンスを合成し、所定の画像をワープする。
論文 参考訳(メタデータ) (2023-03-24T01:54:26Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Approximated Bilinear Modules for Temporal Modeling [116.6506871576514]
CNNの2層は補助ブランチサンプリングを追加することで、時間的双線形モジュールに変換できる。
我々のモデルは、事前トレーニングなしで、Something v1とv2データセットの最先端メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-07-25T09:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。