論文の概要: Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2312.04483v1
- Date: Thu, 7 Dec 2023 17:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:00:45.668509
- Title: Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation
- Title(参考訳): テキスト・ビデオ生成のための階層的時空間デカップリング
- Authors: Zhiwu Qing, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yujie Wei, Yingya
Zhang, Changxin Gao, Nong Sang
- Abstract要約: テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
- 参考スコア(独自算出の注目度): 49.298187741014345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite diffusion models having shown powerful abilities to generate
photorealistic images, generating videos that are realistic and diverse still
remains in its infancy. One of the key reasons is that current methods
intertwine spatial content and temporal dynamics together, leading to a notably
increased complexity of text-to-video generation (T2V). In this work, we
propose HiGen, a diffusion model-based method that improves performance by
decoupling the spatial and temporal factors of videos from two perspectives,
i.e., structure level and content level. At the structure level, we decompose
the T2V task into two steps, including spatial reasoning and temporal
reasoning, using a unified denoiser. Specifically, we generate spatially
coherent priors using text during spatial reasoning and then generate
temporally coherent motions from these priors during temporal reasoning. At the
content level, we extract two subtle cues from the content of the input video
that can express motion and appearance changes, respectively. These two cues
then guide the model's training for generating videos, enabling flexible
content variations and enhancing temporal stability. Through the decoupled
paradigm, HiGen can effectively reduce the complexity of this task and generate
realistic videos with semantics accuracy and motion stability. Extensive
experiments demonstrate the superior performance of HiGen over the
state-of-the-art T2V methods.
- Abstract(参考訳): 拡散モデルはフォトリアリスティックな画像を生成する強力な能力を示してきたが、現実的で多様なビデオを生成することは、まだ初期段階にある。
重要な理由の1つは、現在の手法が空間的コンテンツと時間的ダイナミクスを連動させ、テキスト対ビデオ生成(t2v)の複雑さが著しく増加することである。
本研究では,2つの視点,すなわち構造レベルとコンテンツレベルから映像の空間的・時間的要因を分離することにより,性能を向上させる拡散モデルに基づくHiGenを提案する。
構造レベルでは、t2vタスクを統合デノイザーを用いて空間的推論と時間的推論の2つのステップに分解する。
具体的には,空間推論中にテキストを用いて空間的コヒーレントな前兆を生成し,時間的推論中にこれらの前兆から時間的コヒーレントな動きを生成する。
コンテンツレベルでは、入力ビデオの内容から2つの微妙な手がかりを抽出し、それぞれ動きと外観の変化を表現できる。
これら2つのヒントは、フレキシブルなコンテンツのバリエーションを可能にし、時間的安定性を高めるために、モデルのトレーニングを導く。
分離されたパラダイムによって、HiGenはこのタスクの複雑さを効果的に減らし、セマンティクスの精度と動きの安定性でリアルなビデオを生成することができる。
大規模な実験は、最先端のT2V法よりも優れた性能を示す。
関連論文リスト
- Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Decouple Content and Motion for Conditional Image-to-Video Generation [6.634105805557556]
条件付きイメージ・トゥ・ビデオ(cI2V)生成は、条件、すなわち1つの画像とテキストから始まり、信じられる新しいビデオを作成することである。
従来のcI2V生成法は、従来のRGBピクセル空間において、動きの一貫性と視覚的連続性のモデリングに制限がある。
本稿では,対象のRGB画素を空間的内容と時間的動きの2つの異なる成分に分解する手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:08:27Z) - Empowering Dynamics-aware Text-to-Video Diffusion with Large Language
Models [120.58133795493536]
テキスト・トゥ・ビデオ (T2V) は、最近出現した拡散モデル (DM) が、過去のアプローチよりも有望なパフォーマンスを示したコミュニティで注目を集めている。
本研究では,T2V生成における映像力学の認識の強化について検討する。
人間の直感にインスパイアされた我々は、革新的な動的シーンマネージャ(Dysen)モジュールを設計する。
論文 参考訳(メタデータ) (2023-08-26T08:31:48Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion [27.47320496383661]
本稿では,時間的ダイナミクスを制御するために音声信号を利用する新しいT2Vフレームワークを提案する。
音声による局所的な編集と信号の平滑化を提案し,ビデオ合成におけるデシラタの相反する2つのデシラタのバランスを良くする。
論文 参考訳(メタデータ) (2023-05-06T10:26:56Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial
Grounding [117.23208392452693]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。