論文の概要: Dual-Stream Diffusion Net for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2308.08316v3
- Date: Sat, 30 Dec 2023 04:21:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 01:59:03.571897
- Title: Dual-Stream Diffusion Net for Text-to-Video Generation
- Title(参考訳): テキスト対ビデオ生成のためのデュアルストリーム拡散ネット
- Authors: Binhui Liu, Xin Liu, Anbo Dai, Zhiyong Zeng, Dan Wang, Zhen Cui, Jian
Yang
- Abstract要約: ビデオ生成におけるコンテンツ変動の整合性を改善するために,デュアルストリーム拡散ネット(DSDN)を提案する。
特に、デザインされた2つの拡散ストリーム、ビデオコンテンツとモーションブランチは、コンテンツだけでなく、パーソナライズされたビデオのバリエーションを生成するために、それぞれのプライベートスペースで別々に実行できた。
われわれの方法では、フリックを減らした素晴らしい連続ビデオが作れる。
- 参考スコア(独自算出の注目度): 25.207899903108697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emerging diffusion models, recently, text-to-video generation has
aroused increasing attention. But an important bottleneck therein is that
generative videos often tend to carry some flickers and artifacts. In this
work, we propose a dual-stream diffusion net (DSDN) to improve the consistency
of content variations in generating videos. In particular, the designed two
diffusion streams, video content and motion branches, could not only run
separately in their private spaces for producing personalized video variations
as well as content, but also be well-aligned between the content and motion
domains through leveraging our designed cross-transformer interaction module,
which would benefit the smoothness of generated videos. Besides, we also
introduce motion decomposer and combiner to faciliate the operation on video
motion. Qualitative and quantitative experiments demonstrate that our method
could produce amazing continuous videos with fewer flickers.
- Abstract(参考訳): 近年の拡散モデルにより、テキスト・ビデオ生成が注目を集めている。
しかし、重要なボトルネックは、生成ビデオがフリックやアーティファクトを運ぶことが多いことだ。
本研究では,ビデオ生成におけるコンテンツ変動の一貫性を改善するために,DSDN(Dual-stream diffusion net)を提案する。
特に、デザインされた2つの拡散ストリーム、ビデオコンテンツとモーションブランチは、パーソナライズされたビデオのバリエーションとコンテンツを生成するために、それぞれのプライベートスペースで個別に実行されるだけでなく、デザインされたクロストランスフォーマーインタラクションモジュールを活用することで、コンテンツとモーションドメインの整合性も向上する。
また,映像の動作をファシリケートする動き分解器とコンバインダも導入する。
定性的かつ定量的な実験により、フリック数が少ない素晴らしい連続ビデオが作成できることを示した。
関連論文リスト
- StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - MTVG : Multi-text Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,事前学習した拡散型テキスト・ツー・ビデオ(T2V)生成モデルを用いて,新たなマルチテキスト・ビデオ生成(MTVG)を提案する。
提案手法は,セマンティック・コヒーレントかつ時間的にシームレスなビデオの観点で,優れた出力を示す。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [102.81825637792572]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and
View-Change Human-Centric Video Editing [48.086102360155856]
本稿では,革新的映像表現として動的ニューラルラジアンス場(NeRF)を紹介する。
本稿では,一貫した編集が可能な画像ベースビデオNeRF編集パイプラインを提案する。
我々の手法はDynVideo-Eと呼ばれ、2つの挑戦的データセットに対するSOTAのアプローチを、人間の好みに対して50%の差で大幅に上回っている。
論文 参考訳(メタデータ) (2023-10-16T17:48:10Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。