論文の概要: Latte: Latent Diffusion Transformer for Video Generation
- arxiv url: http://arxiv.org/abs/2401.03048v1
- Date: Fri, 5 Jan 2024 19:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 20:46:51.939853
- Title: Latte: Latent Diffusion Transformer for Video Generation
- Title(参考訳): latte: ビデオ生成のための潜拡散トランス
- Authors: Xin Ma, Yaohui Wang, Gengyun Jia, Xinyuan Chen, Ziwei Liu, Yuan-Fang
Li, Cunjian Chen, Yu Qiao
- Abstract要約: ビデオ生成のための遅延拡散変換器Latteを提案する。
Lataはまず、入力ビデオから時間トークンを抽出し、次に一連のTransformerブロックを採用して、潜時空間の動画配信をモデル化する。
Lataは、4つの標準ビデオ生成データセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 67.85687633666296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel Latent Diffusion Transformer, namely Latte, for video
generation. Latte first extracts spatio-temporal tokens from input videos and
then adopts a series of Transformer blocks to model video distribution in the
latent space. In order to model a substantial number of tokens extracted from
videos, four efficient variants are introduced from the perspective of
decomposing the spatial and temporal dimensions of input videos. To improve the
quality of generated videos, we determine the best practices of Latte through
rigorous experimental analysis, including video clip patch embedding, model
variants, timestep-class information injection, temporal positional embedding,
and learning strategies. Our comprehensive evaluation demonstrates that Latte
achieves state-of-the-art performance across four standard video generation
datasets, i.e., FaceForensics, SkyTimelapse, UCF101, and Taichi-HD. In
addition, we extend Latte to text-to-video generation (T2V) task, where Latte
achieves comparable results compared to recent T2V models. We strongly believe
that Latte provides valuable insights for future research on incorporating
Transformers into diffusion models for video generation.
- Abstract(参考訳): ビデオ生成のための新しいラテント拡散変換器Latteを提案する。
latteはまず入力ビデオから時空間トークンを抽出し、その後一連のトランスフォーマーブロックを採用して潜在空間での動画配信をモデル化した。
ビデオから抽出した大量のトークンをモデル化するために,入力ビデオの空間的次元と時間的次元を分解する観点から4つの効率的な変種を導入する。
生成ビデオの品質を向上させるために,ビデオクリップパッチ埋め込み,モデル変異,時間ステップクラスの情報注入,時間的位置埋め込み,学習戦略など,厳密な実験分析を通じてラテのベストプラクティスを決定する。
包括的評価の結果,Latteは4つの標準ビデオ生成データセット(FaceForensics,SkyTimelapse,UCF101,Taichi-HD)で最先端のパフォーマンスを実現している。
さらに、Latteをテキスト・ツー・ビデオ生成(T2V)タスクに拡張し、Latteは最近のT2Vモデルと同等の結果を得る。
ラッテはビデオ生成のための拡散モデルにトランスフォーマーを組み込む今後の研究に貴重な洞察を与えると信じている。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Towards End-to-End Generative Modeling of Long Videos with
Memory-Efficient Bidirectional Transformers [13.355338760884583]
本稿では,ビデオの長期依存性をエンドツーエンドに学習するためのメモリ指向の双方向変換器(MeBT)を提案する。
本手法は,部分的に観察されたパッチからビデオの全時間容積を並列に復号する。
論文 参考訳(メタデータ) (2023-03-20T16:35:38Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。