論文の概要: Training-Free Efficient Video Generation via Dynamic Token Carving
- arxiv url: http://arxiv.org/abs/2505.16864v1
- Date: Thu, 22 May 2025 16:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.451527
- Title: Training-Free Efficient Video Generation via Dynamic Token Carving
- Title(参考訳): ダイナミックトーケン彫刻による学習不要な高能率映像生成
- Authors: Yuechen Zhang, Jinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, Jiaya Jia,
- Abstract要約: Jengaは、ダイナミックアテンション彫刻とプログレッシブレゾリューション生成を組み合わせた推論パイプラインである。
プラグアンドプレイのソリューションとして、Jengaは現代のハードウェアで実用的な高品質のビデオ生成を可能にする。
- 参考スコア(独自算出の注目度): 54.52061549312799
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the remarkable generation quality of video Diffusion Transformer (DiT) models, their practical deployment is severely hindered by extensive computational requirements. This inefficiency stems from two key challenges: the quadratic complexity of self-attention with respect to token length and the multi-step nature of diffusion models. To address these limitations, we present Jenga, a novel inference pipeline that combines dynamic attention carving with progressive resolution generation. Our approach leverages two key insights: (1) early denoising steps do not require high-resolution latents, and (2) later steps do not require dense attention. Jenga introduces a block-wise attention mechanism that dynamically selects relevant token interactions using 3D space-filling curves, alongside a progressive resolution strategy that gradually increases latent resolution during generation. Experimental results demonstrate that Jenga achieves substantial speedups across multiple state-of-the-art video diffusion models while maintaining comparable generation quality (8.83$\times$ speedup with 0.01\% performance drop on VBench). As a plug-and-play solution, Jenga enables practical, high-quality video generation on modern hardware by reducing inference time from minutes to seconds -- without requiring model retraining. Code: https://github.com/dvlab-research/Jenga
- Abstract(参考訳): ビデオ拡散変換器(DiT)の優れた生成品質にもかかわらず、その実用的展開は広範な計算要求によって著しく妨げられている。
この非効率性は、トークン長に関する自己注意の二次的複雑さと拡散モデルの多段階の性質の2つの主要な課題に起因している。
これらの制約に対処するため、動的注意彫刻とプログレッシブ・レゾリューション・ジェネガを組み合わせた新しい推論パイプラインであるJengaを提案する。
提案手法では,(1) 早期段階は高分解能潜伏剤を必要としない,(2) 後期段階は集中注意を必要としない,という2つの重要な知見を生かしている。
Jengaは、3次元空間充填曲線を用いて関連するトークンの相互作用を動的に選択するブロックワイズ・アテンション機構を導入し、生成中の遅延分解能を徐々に増大させるプログレッシブ・レゾリューション戦略を導入した。
実験の結果、Jengaは複数の最先端ビデオ拡散モデルに対して、同等な生成品質(VBenchでは0.01\%の性能低下を伴う8.83$\times$スピードアップ)を維持しながら、相当なスピードアップを実現していることが示された。
プラグアンドプレイソリューションとして、Jengaはモデル再トレーニングを必要とせず、推論時間を数分から秒に短縮することで、現代的なハードウェア上で実用的な高品質のビデオ生成を可能にする。
コード:https://github.com/dvlab-research/Jenga
関連論文リスト
- Training-free and Adaptive Sparse Attention for Efficient Long Video Generation [31.615453637053793]
Diffusion Transformers (DiTs) による高忠実度長ビデオの生成は、しばしば大きな遅延によって妨げられる。
本稿では,最初の動的パターンとオンライン精密検索スパースアテンション手法であるAdaSpaを提案する。
AdaSpaは適応的なプラグアンドプレイソリューションとして実装されており、既存のDiTとシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-02-28T14:11:20Z) - DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - CascadeV: An Implementation of Wurstchen Architecture for Video Generation [4.086317089863318]
本稿では,最先端の2K解像度ビデオを生成することができるLDM(Latent diffusion model)を提案する。
実験により, 高い圧縮比を達成でき, 高品質ビデオ生成に伴う計算課題を大幅に削減できることが示された。
我々のモデルは既存のT2Vモデルとカスケードすることができ、理論的には、微調整なしで4$times$の解像度やフレームを毎秒増加させることができる。
論文 参考訳(メタデータ) (2025-01-28T01:14:24Z) - MSC: Multi-Scale Spatio-Temporal Causal Attention for Autoregressive Video Diffusion [0.0]
これらの問題に対処するためのマルチスケール因果関係(MSC)フレームワークを提案する。
本研究では,空間次元の多重分解能と時間次元の高低周波数を導入し,効率的な注意計算を実現する。
理論的には、我々の手法は計算の複雑さを大幅に減らし、訓練の効率を高めることができる。
論文 参考訳(メタデータ) (2024-12-13T03:39:09Z) - Fast and Memory-Efficient Video Diffusion Using Streamlined Inference [41.505829393818274]
現在のビデオ拡散モデルは、計算要求と高いピークメモリ使用量を示す。
本稿では,映像拡散モデルの時間的・空間的特性を利用したストリーム線形推論を提案する。
我々のアプローチはピークメモリと計算オーバーヘッドを大幅に削減し、単一のコンシューマGPU上で高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-11-02T07:52:18Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。