Fugu-MT 論文翻訳(概要): VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation

論文の概要: VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation

arxiv url: http://arxiv.org/abs/2305.10874v1
Date: Thu, 18 May 2023 11:06:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 15:46:34.425809
Title: VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation
Title（参考訳）: VideoFactory:テキスト対ビデオ生成のための時空間拡散におけるスワップアテンション
Authors: Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu
Abstract要約: VideoFactoryはハイデフィニション(1376x768)、ワイドスクリーン(16:9)の動画を透かしなしで制作できる。本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
参考スコア（独自算出の注目度）: 57.98975319014234
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present VideoFactory, an innovative framework for generating high-quality open-domain videos. VideoFactory excels in producing high-definition (1376x768), widescreen (16:9) videos without watermarks, creating an engaging user experience. Generating videos guided by text instructions poses significant challenges, such as modeling the complex relationship between space and time, and the lack of large-scale text-video paired data. Previous approaches extend pretrained text-to-image generation models by adding temporal 1D convolution/attention modules for video generation. However, these approaches overlook the importance of jointly modeling space and time, inevitably leading to temporal distortions and misalignment between texts and videos. In this paper, we propose a novel approach that strengthens the interaction between spatial and temporal perceptions. In particular, we utilize a swapped cross-attention mechanism in 3D windows that alternates the "query" role between spatial and temporal blocks, enabling mutual reinforcement for each other. To fully unlock model capabilities for high-quality video generation, we curate a large-scale video dataset called HD-VG-130M. This dataset comprises 130 million text-video pairs from the open-domain, ensuring high-definition, widescreen and watermark-free characters. Objective metrics and user studies demonstrate the superiority of our approach in terms of per-frame quality, temporal correlation, and text-video alignment, with clear margins.
Abstract（参考訳）: 我々は,高品質なオープンドメインビデオを生成するための革新的なフレームワークであるvideofactoryを提案する。 VideoFactoryは、ハイデフィニション(1376x768)、ワイドスクリーン(16:9)の動画を透かしなしで制作し、魅力的なユーザー体験を生み出している。テキスト指示によるビデオの生成は、空間と時間の間の複雑な関係のモデル化や、大規模なテキストビデオ対データの欠如など、大きな課題を提起する。前回のアプローチでは、ビデオ生成に時間的1次元畳み込み/アテンションモジュールを追加することで、事前学習されたテキストから画像への生成モデルを拡張する。しかし、これらのアプローチは空間と時間の共同モデリングの重要性を軽視し、必然的に時間的歪みやテキストとビデオ間の不一致につながる。本稿では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。特に,空間ブロックと時間ブロック間の"クエリ"ロールを交換し,相互強化を可能にする3dウィンドウのクロスアテンション機構を利用する。高品質のビデオ生成のためのモデル機能を完全にアンロックするために,HD-VG-130Mと呼ばれる大規模ビデオデータセットをキュレートする。このデータセットはオープンドメインから1億3000万のテキストビデオペアで構成され、高解像度、ワイドスクリーン、透かしのない文字を保証する。客観的指標とユーザスタディは,フレーム毎の品質,時間相関,テキスト・ビデオのアライメントにおいて,明確なマージンで,このアプローチが優れていることを示している。

関連論文リスト

LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文参考訳（メタデータ） (2025-07-17T09:46:43Z)
HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文参考訳（メタデータ） (2025-03-14T15:36:39Z)
Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos [15.781862060265519]
CFC-VIDS-1Mは、体系的な粗いキュレーションパイプラインによって構築された高品質のビデオデータセットである。我々は、空間的時間的注意機構を分離したトランスフォーマーベースのアーキテクチャであるRACCOONを開発した。
論文参考訳（メタデータ） (2025-02-28T18:56:35Z)
MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文参考訳（メタデータ） (2024-10-10T07:07:56Z)
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。 VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。 DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文参考訳（メタデータ） (2024-08-22T17:55:22Z)
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [47.88160253507823]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。 CTGMは、TII(Temporal Information)、TAR(Temporal Affinity Refiner)、TFB(Temporal Feature Booster)をクロスアテンションの開始、中、末に組み込んでいる。
論文参考訳（メタデータ） (2024-08-15T14:47:44Z)
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文参考訳（メタデータ） (2024-05-02T16:25:16Z)
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文参考訳（メタデータ） (2024-01-11T16:48:44Z)
Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文参考訳（メタデータ） (2023-09-07T08:12:58Z)
StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文参考訳（メタデータ） (2021-07-15T09:58:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。