論文の概要: Dual-Stream Diffusion Net for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2308.08316v2
- Date: Fri, 18 Aug 2023 01:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 10:20:20.237932
- Title: Dual-Stream Diffusion Net for Text-to-Video Generation
- Title(参考訳): テキスト対ビデオ生成のためのデュアルストリーム拡散ネット
- Authors: Binhui Liu, Xin Liu, Anbo Dai, Zhiyong Zeng, Zhen Cui, Jian Yang
- Abstract要約: ビデオ生成におけるコンテンツ変動の整合性を改善するために,デュアルストリーム拡散ネット(DSDN)を提案する。
特に、デザインされた2つの拡散ストリーム、ビデオコンテンツとモーションブランチは、コンテンツだけでなく、パーソナライズされたビデオのバリエーションを生成するために、それぞれのプライベートスペースで別々に実行できた。
われわれの方法では、フリックを減らした素晴らしい連続ビデオが作れる。
- 参考スコア(独自算出の注目度): 24.028080115423155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emerging diffusion models, recently, text-to-video generation has
aroused increasing attention. But an important bottleneck therein is that
generative videos often tend to carry some flickers and artifacts. In this
work, we propose a dual-stream diffusion net (DSDN) to improve the consistency
of content variations in generating videos. In particular, the designed two
diffusion streams, video content and motion branches, could not only run
separately in their private spaces for producing personalized video variations
as well as content, but also be well-aligned between the content and motion
domains through leveraging our designed cross-transformer interaction module,
which would benefit the smoothness of generated videos. Besides, we also
introduce motion decomposer and combiner to faciliate the operation on video
motion. Qualitative and quantitative experiments demonstrate that our method
could produce amazing continuous videos with fewer flickers.
- Abstract(参考訳): 近年の拡散モデルにより、テキスト・ビデオ生成が注目を集めている。
しかし、重要なボトルネックは、生成ビデオがフリックやアーティファクトを運ぶことが多いことだ。
本研究では,ビデオ生成におけるコンテンツ変動の一貫性を改善するために,DSDN(Dual-stream diffusion net)を提案する。
特に、デザインされた2つの拡散ストリーム、ビデオコンテンツとモーションブランチは、パーソナライズされたビデオのバリエーションとコンテンツを生成するために、それぞれのプライベートスペースで個別に実行されるだけでなく、デザインされたクロストランスフォーマーインタラクションモジュールを活用することで、コンテンツとモーションドメインの整合性も向上する。
また,映像の動作をファシリケートする動き分解器とコンバインダも導入する。
定性的かつ定量的な実験により、フリック数が少ない素晴らしい連続ビデオが作成できることを示した。
関連論文リスト
- Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。