論文の概要: VideoFactory: Swap Attention in Spatiotemporal Diffusions for
Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2305.10874v2
- Date: Mon, 12 Jun 2023 10:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 00:05:57.883771
- Title: VideoFactory: Swap Attention in Spatiotemporal Diffusions for
Text-to-Video Generation
- Title(参考訳): VideoFactory:テキスト対ビデオ生成のための時空間拡散におけるスワップアテンション
- Authors: Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong
Fu, Jiaying Liu
- Abstract要約: VideoFactoryはハイデフィニション(1376x768)、ワイドスクリーン(16:9)の動画を透かしなしで制作できる。
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 57.98975319014234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present VideoFactory, an innovative framework for generating high-quality
open-domain videos. VideoFactory excels in producing high-definition
(1376x768), widescreen (16:9) videos without watermarks, creating an engaging
user experience. Generating videos guided by text instructions poses
significant challenges, such as modeling the complex relationship between space
and time, and the lack of large-scale text-video paired data. Previous
approaches extend pretrained text-to-image generation models by adding temporal
1D convolution/attention modules for video generation. However, these
approaches overlook the importance of jointly modeling space and time,
inevitably leading to temporal distortions and misalignment between texts and
videos. In this paper, we propose a novel approach that strengthens the
interaction between spatial and temporal perceptions. In particular, we utilize
a swapped cross-attention mechanism in 3D windows that alternates the "query"
role between spatial and temporal blocks, enabling mutual reinforcement for
each other. To fully unlock model capabilities for high-quality video
generation, we curate a large-scale video dataset called HD-VG-130M. This
dataset comprises 130 million text-video pairs from the open-domain, ensuring
high-definition, widescreen and watermark-free characters. Objective metrics
and user studies demonstrate the superiority of our approach in terms of
per-frame quality, temporal correlation, and text-video alignment, with clear
margins.
- Abstract(参考訳): 我々は,高品質なオープンドメインビデオを生成するための革新的なフレームワークであるvideofactoryを提案する。
VideoFactoryは、ハイデフィニション(1376x768)、ワイドスクリーン(16:9)の動画を透かしなしで制作し、魅力的なユーザー体験を生み出している。
テキスト指示によるビデオの生成は、空間と時間の間の複雑な関係のモデル化や、大規模なテキストビデオ対データの欠如など、大きな課題を提起する。
前回のアプローチでは、ビデオ生成に時間的1次元畳み込み/アテンションモジュールを追加することで、事前学習されたテキストから画像への生成モデルを拡張する。
しかし、これらのアプローチは空間と時間の共同モデリングの重要性を軽視し、必然的に時間的歪みやテキストとビデオ間の不一致につながる。
本稿では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
特に,空間ブロックと時間ブロック間の"クエリ"ロールを交換し,相互強化を可能にする3dウィンドウのクロスアテンション機構を利用する。
高品質のビデオ生成のためのモデル機能を完全にアンロックするために,HD-VG-130Mと呼ばれる大規模ビデオデータセットをキュレートする。
このデータセットはオープンドメインから1億3000万のテキストビデオペアで構成され、高解像度、ワイドスクリーン、透かしのない文字を保証する。
客観的指標とユーザスタディは,フレーム毎の品質,時間相関,テキスト・ビデオのアライメントにおいて,明確なマージンで,このアプローチが優れていることを示している。
関連論文リスト
- Video-LaVIT: Unified Video-Language Pre-training with Decoupled
Visual-Motional Tokenization [53.92519123600325]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Gen-L-Video: Multi-Text to Long Video Generation via Temporal
Co-Denoising [43.35391175319815]
本研究では,複数テキスト条件付き長編ビデオの生成と編集にテキスト駆動能力を拡張する可能性について検討する。
我々は,市販のビデオ拡散モデルの拡張が可能なGen-L-Videoという新しいパラダイムを導入する。
実験結果から,本手法は映像拡散モデルの生成・編集能力を著しく拡張することが明らかとなった。
論文 参考訳(メタデータ) (2023-05-29T17:38:18Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。