論文の概要: StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
- arxiv url: http://arxiv.org/abs/2403.14773v1
- Date: Thu, 21 Mar 2024 18:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 19:26:17.394516
- Title: StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
- Title(参考訳): StreamingT2V: テキストからの一貫性、動的、拡張可能なロングビデオ生成
- Authors: Roberto Henschel, Levon Khachatryan, Daniil Hayrapetyan, Hayk Poghosyan, Vahram Tadevosyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi,
- Abstract要約: 本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
- 参考スコア(独自算出の注目度): 58.49820807662246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video diffusion models enable the generation of high-quality videos that follow text instructions, making it easy to create diverse and individual content. However, existing approaches mostly focus on high-quality short video generation (typically 16 or 24 frames), ending up with hard-cuts when naively extended to the case of long video synthesis. To overcome these limitations, we introduce StreamingT2V, an autoregressive approach for long video generation of 80, 240, 600, 1200 or more frames with smooth transitions. The key components are:(i) a short-term memory block called conditional attention module (CAM), which conditions the current generation on the features extracted from the previous chunk via an attentional mechanism, leading to consistent chunk transitions, (ii) a long-term memory block called appearance preservation module, which extracts high-level scene and object features from the first video chunk to prevent the model from forgetting the initial scene, and (iii) a randomized blending approach that enables to apply a video enhancer autoregressively for infinitely long videos without inconsistencies between chunks. Experiments show that StreamingT2V generates high motion amount. In contrast, all competing image-to-video methods are prone to video stagnation when applied naively in an autoregressive manner. Thus, we propose with StreamingT2V a high-quality seamless text-to-long video generator that outperforms competitors with consistency and motion. Our code will be available at: https://github.com/Picsart-AI-Research/StreamingT2V
- Abstract(参考訳): テキストからビデオへの拡散モデルにより、テキストの指示に従う高品質なビデオを生成することができ、多種多様な個別のコンテンツを簡単に作成できる。
しかし、既存のアプローチは主に高品質のショートビデオ生成(典型的には16フレームか24フレーム)に重点を置いており、長いビデオ合成の場合に鼻で拡張するとハードカットとなる。
この制限を克服するために,80,240,600,1200以上のフレームをスムーズな遷移で生成する,自動回帰方式のStreamingT2Vを導入する。
主な構成要素は次のとおりである。
(i)コンディショナルアテンションモジュール(CAM)と呼ばれる短期記憶ブロックで、注意機構を介して前のチャンクから抽出した特徴の現在の生成を条件付けし、一貫したチャンク遷移を引き起こす。
二 外観保存モジュールという長期記憶ブロックであって、第1のビデオチャンクから高レベルなシーンやオブジェクトの特徴を抽出して、モデルが初期シーンを忘れないようにすること。
三 チャンク間の矛盾なく無限長ビデオに自動回帰的にビデオエンハンサーを適用することを可能とするランダム化ブレンディング手法。
実験により、StreamingT2Vは高い運動量を生成することが示された。
対照的に、競合する画像とビデオの手法は、自己回帰的に適用する場合、ビデオの停滞がちである。
そこで我々はStreamingT2Vを提案する。これは高品質なテキスト・ツー・ロングビデオ・ジェネレータで、コンペティタを一貫性と動作で上回っている。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2Vで利用可能になります。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。
我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-06T17:25:33Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。