論文の概要: Training-Free Efficient Video Generation via Dynamic Token Carving
- arxiv url: http://arxiv.org/abs/2505.16864v1
- Date: Thu, 22 May 2025 16:21:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.451527
- Title: Training-Free Efficient Video Generation via Dynamic Token Carving
- Title(参考訳): ダイナミックトーケン彫刻による学習不要な高能率映像生成
- Authors: Yuechen Zhang, Jinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, Jiaya Jia,
- Abstract要約: Jengaは、ダイナミックアテンション彫刻とプログレッシブレゾリューション生成を組み合わせた推論パイプラインである。
プラグアンドプレイのソリューションとして、Jengaは現代のハードウェアで実用的な高品質のビデオ生成を可能にする。
- 参考スコア(独自算出の注目度): 54.52061549312799
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite the remarkable generation quality of video Diffusion Transformer (DiT) models, their practical deployment is severely hindered by extensive computational requirements. This inefficiency stems from two key challenges: the quadratic complexity of self-attention with respect to token length and the multi-step nature of diffusion models. To address these limitations, we present Jenga, a novel inference pipeline that combines dynamic attention carving with progressive resolution generation. Our approach leverages two key insights: (1) early denoising steps do not require high-resolution latents, and (2) later steps do not require dense attention. Jenga introduces a block-wise attention mechanism that dynamically selects relevant token interactions using 3D space-filling curves, alongside a progressive resolution strategy that gradually increases latent resolution during generation. Experimental results demonstrate that Jenga achieves substantial speedups across multiple state-of-the-art video diffusion models while maintaining comparable generation quality (8.83$\times$ speedup with 0.01\% performance drop on VBench). As a plug-and-play solution, Jenga enables practical, high-quality video generation on modern hardware by reducing inference time from minutes to seconds -- without requiring model retraining. Code: https://github.com/dvlab-research/Jenga
- Abstract(参考訳): ビデオ拡散変換器(DiT)の優れた生成品質にもかかわらず、その実用的展開は広範な計算要求によって著しく妨げられている。
この非効率性は、トークン長に関する自己注意の二次的複雑さと拡散モデルの多段階の性質の2つの主要な課題に起因している。
これらの制約に対処するため、動的注意彫刻とプログレッシブ・レゾリューション・ジェネガを組み合わせた新しい推論パイプラインであるJengaを提案する。
提案手法では,(1) 早期段階は高分解能潜伏剤を必要としない,(2) 後期段階は集中注意を必要としない,という2つの重要な知見を生かしている。
Jengaは、3次元空間充填曲線を用いて関連するトークンの相互作用を動的に選択するブロックワイズ・アテンション機構を導入し、生成中の遅延分解能を徐々に増大させるプログレッシブ・レゾリューション戦略を導入した。
実験の結果、Jengaは複数の最先端ビデオ拡散モデルに対して、同等な生成品質(VBenchでは0.01\%の性能低下を伴う8.83$\times$スピードアップ)を維持しながら、相当なスピードアップを実現していることが示された。
プラグアンドプレイソリューションとして、Jengaはモデル再トレーニングを必要とせず、推論時間を数分から秒に短縮することで、現代的なハードウェア上で実用的な高品質のビデオ生成を可能にする。
コード:https://github.com/dvlab-research/Jenga
関連論文リスト
- Taming Diffusion Transformer for Real-Time Mobile Video Generation [72.20660234882594]
Diffusion Transformer (DiT) はビデオ生成タスクにおいて高いパフォーマンスを示しているが、その高い計算コストは、スマートフォンのようなリソース制約のあるデバイスでは実用的ではない。
本稿では,ビデオ生成の高速化とモバイルプラットフォーム上でのリアルタイムパフォーマンスの実現を目的とした,新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:10Z) - VMoBA: Mixture-of-Block Attention for Video Diffusion Models [29.183614108287276]
本稿では,ビデオ拡散モデル(VDM)に特化して適応する新しい注意機構,VMoBAについて紹介する。
VMoBAは、事前訓練されたビデオトランスフォーマー内の注意パターンの詳細な分析によって、オリジナルのMoBAフレームワークを3つの重要な修正で強化する。
VMoBAは、長いシーケンスでのVDMのトレーニングを著しく加速し、2.92倍のFLOPと1.48倍のレイテンシ高速化を実現している。
論文 参考訳(メタデータ) (2025-06-30T13:52:31Z) - LLIA -- Enabling Low-Latency Interactive Avatars: Real-Time Audio-Driven Portrait Video Generation with Diffusion Models [17.858801012726445]
拡散に基づくモデルは、その卓越した表現力のために、仮想人間世代に広く採用されている。
本稿では,これらの課題に対処するための拡散モデルに基づく,新しいオーディオ駆動型ポートレートビデオ生成フレームワークを提案する。
本モデルでは,解像度384x384,解像度512x512で最大78FPS,ビデオ生成遅延140msと215msで最大78FPSを実現している。
論文 参考訳(メタデータ) (2025-06-06T07:09:07Z) - RainFusion: Adaptive Video Generation Acceleration via Multi-Dimensional Visual Redundancy [10.53687668536011]
RainFusionは、ビデオ品質を保ちながら注意計算を加速するために、視覚データに固有の空間性を利用する。
提案するbf RainFusionは,最先端の3D動画生成モデルにシームレスに統合可能なプラグアンドプレイ方式である。
論文 参考訳(メタデータ) (2025-05-27T11:15:02Z) - Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis [50.77548592888096]
2Kビデオ合成の需要は、超明快なビジュアルに対する消費者の期待が高まるにつれて増大している。
Turbo2Kはディテールリッチな2Kビデオを生成するための効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-04-20T03:30:59Z) - Training-free and Adaptive Sparse Attention for Efficient Long Video Generation [31.615453637053793]
Diffusion Transformers (DiTs) による高忠実度長ビデオの生成は、しばしば大きな遅延によって妨げられる。
本稿では,最初の動的パターンとオンライン精密検索スパースアテンション手法であるAdaSpaを提案する。
AdaSpaは適応的なプラグアンドプレイソリューションとして実装されており、既存のDiTとシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-02-28T14:11:20Z) - DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - CascadeV: An Implementation of Wurstchen Architecture for Video Generation [4.086317089863318]
本稿では,最先端の2K解像度ビデオを生成することができるLDM(Latent diffusion model)を提案する。
実験により, 高い圧縮比を達成でき, 高品質ビデオ生成に伴う計算課題を大幅に削減できることが示された。
我々のモデルは既存のT2Vモデルとカスケードすることができ、理論的には、微調整なしで4$times$の解像度やフレームを毎秒増加させることができる。
論文 参考訳(メタデータ) (2025-01-28T01:14:24Z) - MSC: Multi-Scale Spatio-Temporal Causal Attention for Autoregressive Video Diffusion [0.0]
これらの問題に対処するためのマルチスケール因果関係(MSC)フレームワークを提案する。
本研究では,空間次元の多重分解能と時間次元の高低周波数を導入し,効率的な注意計算を実現する。
理論的には、我々の手法は計算の複雑さを大幅に減らし、訓練の効率を高めることができる。
論文 参考訳(メタデータ) (2024-12-13T03:39:09Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - Fast and Memory-Efficient Video Diffusion Using Streamlined Inference [41.505829393818274]
現在のビデオ拡散モデルは、計算要求と高いピークメモリ使用量を示す。
本稿では,映像拡散モデルの時間的・空間的特性を利用したストリーム線形推論を提案する。
我々のアプローチはピークメモリと計算オーバーヘッドを大幅に削減し、単一のコンシューマGPU上で高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-11-02T07:52:18Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。