論文の概要: Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2312.04483v1
- Date: Thu, 7 Dec 2023 17:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 14:00:45.668509
- Title: Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation
- Title(参考訳): テキスト・ビデオ生成のための階層的時空間デカップリング
- Authors: Zhiwu Qing, Shiwei Zhang, Jiayu Wang, Xiang Wang, Yujie Wei, Yingya
Zhang, Changxin Gao, Nong Sang
- Abstract要約: テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
- 参考スコア(独自算出の注目度): 49.298187741014345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite diffusion models having shown powerful abilities to generate
photorealistic images, generating videos that are realistic and diverse still
remains in its infancy. One of the key reasons is that current methods
intertwine spatial content and temporal dynamics together, leading to a notably
increased complexity of text-to-video generation (T2V). In this work, we
propose HiGen, a diffusion model-based method that improves performance by
decoupling the spatial and temporal factors of videos from two perspectives,
i.e., structure level and content level. At the structure level, we decompose
the T2V task into two steps, including spatial reasoning and temporal
reasoning, using a unified denoiser. Specifically, we generate spatially
coherent priors using text during spatial reasoning and then generate
temporally coherent motions from these priors during temporal reasoning. At the
content level, we extract two subtle cues from the content of the input video
that can express motion and appearance changes, respectively. These two cues
then guide the model's training for generating videos, enabling flexible
content variations and enhancing temporal stability. Through the decoupled
paradigm, HiGen can effectively reduce the complexity of this task and generate
realistic videos with semantics accuracy and motion stability. Extensive
experiments demonstrate the superior performance of HiGen over the
state-of-the-art T2V methods.
- Abstract(参考訳): 拡散モデルはフォトリアリスティックな画像を生成する強力な能力を示してきたが、現実的で多様なビデオを生成することは、まだ初期段階にある。
重要な理由の1つは、現在の手法が空間的コンテンツと時間的ダイナミクスを連動させ、テキスト対ビデオ生成(t2v)の複雑さが著しく増加することである。
本研究では,2つの視点,すなわち構造レベルとコンテンツレベルから映像の空間的・時間的要因を分離することにより,性能を向上させる拡散モデルに基づくHiGenを提案する。
構造レベルでは、t2vタスクを統合デノイザーを用いて空間的推論と時間的推論の2つのステップに分解する。
具体的には,空間推論中にテキストを用いて空間的コヒーレントな前兆を生成し,時間的推論中にこれらの前兆から時間的コヒーレントな動きを生成する。
コンテンツレベルでは、入力ビデオの内容から2つの微妙な手がかりを抽出し、それぞれ動きと外観の変化を表現できる。
これら2つのヒントは、フレキシブルなコンテンツのバリエーションを可能にし、時間的安定性を高めるために、モデルのトレーニングを導く。
分離されたパラダイムによって、HiGenはこのタスクの複雑さを効果的に減らし、セマンティクスの精度と動きの安定性でリアルなビデオを生成することができる。
大規模な実験は、最先端のT2V法よりも優れた性能を示す。
関連論文リスト
- BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way [72.1984861448374]
そこで,BroadWayを提案する。BroadWayは,追加パラメータやメモリ増設,サンプリング時間を追加することなく,テキスト・ビデオ・ジェネレーションの品質を向上するためのトレーニング不要な手法である。
具体的には、BroadWayは2つの主要コンポーネントから構成される: 1) 時間的自己誘導は、様々なデコーダブロック間の時間的注意マップ間の格差を減らし、生成されたビデオの構造的妥当性と時間的一貫性を改善する。
論文 参考訳(メタデータ) (2024-10-08T17:56:33Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。
我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-06T17:25:33Z) - S2DM: Sector-Shaped Diffusion Models for Video Generation [2.0270353391739637]
ビデオ生成のためのセクタ型拡散モデル(S2DM)を提案する。
S2DMは、同じ意味と本質的な特徴を共有する本質的な関連データ群を生成することができる。
追加のトレーニングなしに、我々のモデルは、他の時間的条件と統合され、生成モデルは、既存の作業と同等のパフォーマンスを達成できることを示す。
論文 参考訳(メタデータ) (2024-03-20T08:50:15Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - Decouple Content and Motion for Conditional Image-to-Video Generation [6.634105805557556]
条件付きイメージ・トゥ・ビデオ(cI2V)生成は、条件、すなわち1つの画像とテキストから始まり、信じられる新しいビデオを作成することである。
従来のcI2V生成法は、従来のRGBピクセル空間において、動きの一貫性と視覚的連続性のモデリングに制限がある。
本稿では,対象のRGB画素を空間的内容と時間的動きの2つの異なる成分に分解する手法を提案する。
論文 参考訳(メタデータ) (2023-11-24T06:08:27Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。