論文の概要: StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
- arxiv url: http://arxiv.org/abs/2403.14773v1
- Date: Thu, 21 Mar 2024 18:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 19:26:17.394516
- Title: StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
- Title(参考訳): StreamingT2V: テキストからの一貫性、動的、拡張可能なロングビデオ生成
- Authors: Roberto Henschel, Levon Khachatryan, Daniil Hayrapetyan, Hayk Poghosyan, Vahram Tadevosyan, Zhangyang Wang, Shant Navasardyan, Humphrey Shi,
- Abstract要約: 本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
- 参考スコア(独自算出の注目度): 58.49820807662246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video diffusion models enable the generation of high-quality videos that follow text instructions, making it easy to create diverse and individual content. However, existing approaches mostly focus on high-quality short video generation (typically 16 or 24 frames), ending up with hard-cuts when naively extended to the case of long video synthesis. To overcome these limitations, we introduce StreamingT2V, an autoregressive approach for long video generation of 80, 240, 600, 1200 or more frames with smooth transitions. The key components are:(i) a short-term memory block called conditional attention module (CAM), which conditions the current generation on the features extracted from the previous chunk via an attentional mechanism, leading to consistent chunk transitions, (ii) a long-term memory block called appearance preservation module, which extracts high-level scene and object features from the first video chunk to prevent the model from forgetting the initial scene, and (iii) a randomized blending approach that enables to apply a video enhancer autoregressively for infinitely long videos without inconsistencies between chunks. Experiments show that StreamingT2V generates high motion amount. In contrast, all competing image-to-video methods are prone to video stagnation when applied naively in an autoregressive manner. Thus, we propose with StreamingT2V a high-quality seamless text-to-long video generator that outperforms competitors with consistency and motion. Our code will be available at: https://github.com/Picsart-AI-Research/StreamingT2V
- Abstract(参考訳): テキストからビデオへの拡散モデルにより、テキストの指示に従う高品質なビデオを生成することができ、多種多様な個別のコンテンツを簡単に作成できる。
しかし、既存のアプローチは主に高品質のショートビデオ生成(典型的には16フレームか24フレーム)に重点を置いており、長いビデオ合成の場合に鼻で拡張するとハードカットとなる。
この制限を克服するために,80,240,600,1200以上のフレームをスムーズな遷移で生成する,自動回帰方式のStreamingT2Vを導入する。
主な構成要素は次のとおりである。
(i)コンディショナルアテンションモジュール(CAM)と呼ばれる短期記憶ブロックで、注意機構を介して前のチャンクから抽出した特徴の現在の生成を条件付けし、一貫したチャンク遷移を引き起こす。
二 外観保存モジュールという長期記憶ブロックであって、第1のビデオチャンクから高レベルなシーンやオブジェクトの特徴を抽出して、モデルが初期シーンを忘れないようにすること。
三 チャンク間の矛盾なく無限長ビデオに自動回帰的にビデオエンハンサーを適用することを可能とするランダム化ブレンディング手法。
実験により、StreamingT2Vは高い運動量を生成することが示された。
対照的に、競合する画像とビデオの手法は、自己回帰的に適用する場合、ビデオの停滞がちである。
そこで我々はStreamingT2Vを提案する。これは高品質なテキスト・ツー・ロングビデオ・ジェネレータで、コンペティタを一貫性と動作で上回っている。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2Vで利用可能になります。
関連論文リスト
- LoopAnimate: Loopable Salient Object Animation [19.761865029125524]
LoopAnimateは、一貫した開始フレームと終了フレームでビデオを生成する新しい方法である。
忠実度や時間的整合性,主観評価結果など,両指標の最先端性を実現している。
論文 参考訳(メタデータ) (2024-04-14T07:36:18Z) - Streaming Dense Video Captioning [85.70265343236687]
濃密なビデオキャプションのための理想的なモデルは、長い入力ビデオを扱うことができ、リッチで詳細なテキスト記述を予測できる。
現在の最先端モデルは、一定の数のダウンサンプルフレームを処理し、ビデオ全体を見た後、単一の完全な予測を行う。
本稿では,2つの新しいコンポーネントからなるストリーミング高密度動画キャプションモデルを提案する。
論文 参考訳(メタデータ) (2024-04-01T17:59:15Z) - MTVG : Multi-text Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,事前学習した拡散型テキスト・ツー・ビデオ(T2V)生成モデルを用いて,新たなマルチテキスト・ビデオ生成(MTVG)を提案する。
提案手法は,セマンティック・コヒーレントかつ時間的にシームレスなビデオの観点で,優れた出力を示す。
論文 参考訳(メタデータ) (2023-12-07T06:53:25Z) - ART$\boldsymbol{\cdot}$V: Auto-Regressive Text-to-Video Generation with
Diffusion Models [99.84195819571411]
ART$boldsymbolcdot$Vは拡散モデルを用いた自動回帰ビデオ生成のための効率的なフレームワークである。
隣接するフレーム間の単純な連続的な動きしか学ばない。
様々なプロンプトで調整された、任意に長いビデオを生成することができる。
論文 参考訳(メタデータ) (2023-11-30T18:59:47Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。