論文の概要: LTX-Video: Realtime Video Latent Diffusion
- arxiv url: http://arxiv.org/abs/2501.00103v1
- Date: Mon, 30 Dec 2024 19:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:34.242412
- Title: LTX-Video: Realtime Video Latent Diffusion
- Title(参考訳): LTX-Video:リアルタイムビデオ遅延拡散
- Authors: Yoav HaCohen, Nisan Chiprut, Benny Brazowski, Daniel Shalem, Dudu Moshe, Eitan Richardson, Eran Levin, Guy Shiran, Nir Zabari, Ori Gordon, Poriya Panet, Sapir Weissbuch, Victor Kulikov, Yaki Bitterman, Zeev Melumian, Ofir Bibi,
- Abstract要約: LTX-Videoはトランスフォーマーベースの潜在拡散モデルである。
Video-VAEとDenoising Transformerをシームレスに統合する。
Nvidia H100 GPU上では、24fpsのビデオ768 atx512の解像度をわずか2秒で生成する。
- 参考スコア(独自算出の注目度): 4.7789714048042775
- License:
- Abstract: We introduce LTX-Video, a transformer-based latent diffusion model that adopts a holistic approach to video generation by seamlessly integrating the responsibilities of the Video-VAE and the denoising transformer. Unlike existing methods, which treat these components as independent, LTX-Video aims to optimize their interaction for improved efficiency and quality. At its core is a carefully designed Video-VAE that achieves a high compression ratio of 1:192, with spatiotemporal downscaling of 32 x 32 x 8 pixels per token, enabled by relocating the patchifying operation from the transformer's input to the VAE's input. Operating in this highly compressed latent space enables the transformer to efficiently perform full spatiotemporal self-attention, which is essential for generating high-resolution videos with temporal consistency. However, the high compression inherently limits the representation of fine details. To address this, our VAE decoder is tasked with both latent-to-pixel conversion and the final denoising step, producing the clean result directly in pixel space. This approach preserves the ability to generate fine details without incurring the runtime cost of a separate upsampling module. Our model supports diverse use cases, including text-to-video and image-to-video generation, with both capabilities trained simultaneously. It achieves faster-than-real-time generation, producing 5 seconds of 24 fps video at 768x512 resolution in just 2 seconds on an Nvidia H100 GPU, outperforming all existing models of similar scale. The source code and pre-trained models are publicly available, setting a new benchmark for accessible and scalable video generation.
- Abstract(参考訳): 我々は,ビデオ-VAEと復調変換器の責務をシームレスに統合することにより,ビデオ生成に対する全体論的アプローチを採用する,トランスフォーマーに基づく潜伏拡散モデルであるLTX-Videoを紹介する。
これらのコンポーネントを独立したものとして扱う既存の方法とは異なり、LTX-Videoはそれらのインタラクションを最適化して効率と品質を向上させることを目的としている。
コアとなるビデオVAEは、1:192の高圧縮比を実現し、1トークンあたり32 x 32 x 8ピクセルの時空間ダウンスケーリングを実現し、変換器の入力からVAEの入力へのパッチ操作の移動を可能にする。
この高度に圧縮された潜伏空間で操作することで、トランスフォーマーは時間的一貫性のある高解像度ビデオを生成するのに必須の完全な時空間自己アテンションを効率的に行うことができる。
しかし、高圧縮は本質的に細部表現を制限している。
これを解決するために、当社のVAEデコーダは、潜在画素変換と最終復調ステップの両方をタスクとし、クリーンな結果をピクセル空間で直接生成する。
このアプローチは、別個のアップサンプリングモジュールの実行時コストを発生させることなく、詳細な情報を生成する能力を保持する。
我々のモデルは、テキスト・ツー・ビデオや画像・ツー・ビデオ生成など、多様なユースケースをサポートします。
Nvidia H100 GPUでわずか2秒で768x512の解像度で5秒の24fpsビデオを生成し、同様のスケールの既存モデルよりも高速なリアルタイム生成を実現している。
ソースコードと事前トレーニングされたモデルは公開されており、アクセス可能でスケーラブルなビデオ生成のための新しいベンチマークが設定されている。
関連論文リスト
- Pyramidal Flow Matching for Efficient Video Generative Modeling [67.03504440964564]
この研究は、統合ピラミッドフローマッチングアルゴリズムを導入している。
元々の装飾軌道をピラミッドの一連の段階として犠牲にしており、最終段階のみが完全な解像度で機能している。
フレームワーク全体はエンドツーエンドで最適化でき、単一の統合Diffusion Transformer (DiT) を使用する。
論文 参考訳(メタデータ) (2024-10-08T12:10:37Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer [55.515836117658985]
拡散トランスを用いた大規模テキスト・ビデオ生成モデルであるCogVideoXを提案する。
フレームレートは16fps、解像度は768×1360ピクセル。
論文 参考訳(メタデータ) (2024-08-12T11:47:11Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - VDTR: Video Deblurring with Transformer [24.20183395758706]
ビデオブレアリングは、挑戦的な時間的モデリングプロセスのため、未解決の問題である。
本稿では,トランスフォーマービデオの導出に適応する有効なトランスフォーマーモデルであるVDTRを提案する。
論文 参考訳(メタデータ) (2022-04-17T14:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。