論文の概要: VORTA: Efficient Video Diffusion via Routing Sparse Attention
- arxiv url: http://arxiv.org/abs/2505.18809v1
- Date: Sat, 24 May 2025 17:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.670981
- Title: VORTA: Efficient Video Diffusion via Routing Sparse Attention
- Title(参考訳): VORTA: ルーティングスパース注意による効率的なビデオ拡散
- Authors: Wenhao Sun, Rong-Cheng Tu, Yifu Ding, Zhao Jin, Jingyi Liao, Shunyu Liu, Dacheng Tao,
- Abstract要約: ビデオ拡散変換器(VDiT)は高品質なビデオ生成において顕著な進歩を遂げているが、計算コストは依然として高い。
2つの新しいコンポーネントを持つ加速度フレームワーク VORTA を提案する。
VBenchでは品質を損なうことなく、エンドツーエンドのスピードアップを1.76タイムで達成している。
- 参考スコア(独自算出の注目度): 45.269274789183974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Diffusion Transformers (VDiTs) have achieved remarkable progress in high-quality video generation, but remain computationally expensive due to the quadratic complexity of attention over high-dimensional video sequences. Recent attention acceleration methods leverage the sparsity of attention patterns to improve efficiency; however, they often overlook inefficiencies of redundant long-range interactions. To address this problem, we propose \textbf{VORTA}, an acceleration framework with two novel components: 1) a sparse attention mechanism that efficiently captures long-range dependencies, and 2) a routing strategy that adaptively replaces full 3D attention with specialized sparse attention variants throughout the sampling process. It achieves a $1.76\times$ end-to-end speedup without quality loss on VBench. Furthermore, VORTA can seamlessly integrate with various other acceleration methods, such as caching and step distillation, reaching up to $14.41\times$ speedup with negligible performance degradation. VORTA demonstrates its efficiency and enhances the practicality of VDiTs in real-world settings.
- Abstract(参考訳): ビデオ拡散変換器(VDiT)は、高品質なビデオ生成において顕著な進歩を遂げているが、高次元ビデオ列に対する注意の二次的複雑さのため、計算コストは高い。
近年の注意促進法は、注意パターンの空間性を利用して効率を向上させるが、冗長な長距離相互作用の非効率さをしばしば見落としている。
この問題に対処するために,2つの新しいコンポーネントを持つアクセラレーションフレームワークである \textbf{VORTA} を提案する。
1) 長距離依存を効果的に把握するスパースアテンション機構、及び
2) サンプリングプロセスを通して, フル3次元の注意を, 特別なスパークアテンションに置き換えるルーティング戦略を提案する。
VBenchで品質を損なうことなく、エンド・ツー・エンドのスピードアップで1.76\times$を達成している。
さらに、VORTAはキャッシュやステップ蒸留といった他の様々な加速手法とシームレスに統合でき、14.41\times$スピードアップまで到達でき、性能劣化は無視できる。
VORTAはその効率を実証し、現実世界の設定におけるVDiTの実用性を高める。
関連論文リスト
- SRDiffusion: Accelerate Video Diffusion Inference via Sketching-Rendering Cooperation [26.045123066151838]
SRDiffusionは、大小モデルの協調を利用して推論コストを削減する新しいフレームワークである。
提案手法は,既存のアクセラレーション戦略の新たな方向性として導入され,スケーラブルなビデオ生成のための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-25T13:58:52Z) - Training-Free Efficient Video Generation via Dynamic Token Carving [54.52061549312799]
Jengaは、ダイナミックアテンション彫刻とプログレッシブレゾリューション生成を組み合わせた推論パイプラインである。
プラグアンドプレイのソリューションとして、Jengaは現代のハードウェアで実用的な高品質のビデオ生成を可能にする。
論文 参考訳(メタデータ) (2025-05-22T16:21:32Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。