論文の概要: LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity
- arxiv url: http://arxiv.org/abs/2412.09856v1
- Date: Fri, 13 Dec 2024 04:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:04:22.819579
- Title: LinGen: Towards High-Resolution Minute-Length Text-to-Video Generation with Linear Computational Complexity
- Title(参考訳): LinGen:線形計算複雑度を用いた高分解能分長ビデオ生成を目指して
- Authors: Hongjie Wang, Chih-Yao Ma, Yen-Cheng Liu, Ji Hou, Tao Xu, Jialiang Wang, Felix Juefei-Xu, Yaqiao Luo, Peizhao Zhang, Tingbo Hou, Peter Vajda, Niraj K. Jha, Xiaoliang Dai,
- Abstract要約: 本稿では,ピクセル数に対してコストが線形にスケールするリニア・コンプレシティ・テキスト・ビデオ生成フレームワークを提案する。
初めてLinGenは、品質を損なうことなく、単一のGPU上で高解像度の分長ビデオ生成を可能にする。
- 参考スコア(独自算出の注目度): 43.278705347693446
- License:
- Abstract: Text-to-video generation enhances content creation but is highly computationally intensive: The computational cost of Diffusion Transformers (DiTs) scales quadratically in the number of pixels. This makes minute-length video generation extremely expensive, limiting most existing models to generating videos of only 10-20 seconds length. We propose a Linear-complexity text-to-video Generation (LinGen) framework whose cost scales linearly in the number of pixels. For the first time, LinGen enables high-resolution minute-length video generation on a single GPU without compromising quality. It replaces the computationally-dominant and quadratic-complexity block, self-attention, with a linear-complexity block called MATE, which consists of an MA-branch and a TE-branch. The MA-branch targets short-to-long-range correlations, combining a bidirectional Mamba2 block with our token rearrangement method, Rotary Major Scan, and our review tokens developed for long video generation. The TE-branch is a novel TEmporal Swin Attention block that focuses on temporal correlations between adjacent tokens and medium-range tokens. The MATE block addresses the adjacency preservation issue of Mamba and improves the consistency of generated videos significantly. Experimental results show that LinGen outperforms DiT (with a 75.6% win rate) in video quality with up to 15$\times$ (11.5$\times$) FLOPs (latency) reduction. Furthermore, both automatic metrics and human evaluation demonstrate our LinGen-4B yields comparable video quality to state-of-the-art models (with a 50.5%, 52.1%, 49.1% win rate with respect to Gen-3, LumaLabs, and Kling, respectively). This paves the way to hour-length movie generation and real-time interactive video generation. We provide 68s video generation results and more examples in our project website: https://lineargen.github.io/.
- Abstract(参考訳): 拡散変換器(DiT)の計算コストは、ピクセル数で2倍にスケールする。
これにより、分長のビデオ生成は非常に高価になり、既存のモデルのほとんどは10秒から20秒のビデオを生成できる。
本稿では,ピクセル数を線形にスケールする線形複雑テキスト・ビデオ生成(LinGen)フレームワークを提案する。
初めてLinGenは、品質を損なうことなく、単一のGPU上で高解像度の分長ビデオ生成を可能にする。
計算的に支配的かつ二次的複雑なブロックである自己アテンションを、MAブランチとTEブランチで構成されるMATEと呼ばれる線形複雑ブロックに置き換える。
MAブランチは, 双方向のMamba2ブロックとトークン再配置手法, ロータリーメジャースキャン, 長大なビデオ生成のために開発されたレビュートークンを組み合わせることで, 近距離相関を目標とする。
TEブランチは、隣接するトークンと中距離トークンの時間的相関に焦点を当てた、新しいTEmporal Swin Attentionブロックである。
MATEブロックは、Mambaの隣接保存問題に対処し、生成されたビデオの一貫性を大幅に改善する。
実験の結果、LinGenはDiT(75.6%の勝利率)を最大15$\times$ (11.5$\times$) FLOPs(レイテンシ)で上回った。
さらに、自動測定と人的評価の両方で、LinGen-4Bは最先端のモデルに匹敵するビデオ品質(Gen-3、LumaLabs、Klingに対する50.5%、52.1%、49.1%の勝利率)を示している。
これは、時間長の映画生成とリアルタイムのインタラクティブなビデオ生成の道を開く。
私たちは68秒のビデオ生成結果と、プロジェクトのWebサイトでさらに多くの例を提供しています。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - A Recipe for Scaling up Text-to-Video Generation with Text-free Videos [72.59262815400928]
拡散ベースのテキスト・ツー・ビデオ世代は、過去1年で目覚ましい進歩をみせたが、それでもテキスト・ツー・画像世代には及ばない。
我々はTF-T2Vと呼ばれる新しいテキスト・ビデオ生成フレームワークを考案した。
論文 参考訳(メタデータ) (2023-12-25T16:37:39Z) - FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。