論文の概要: Training-Free Sparse Attention for Fast Video Generation via Offline Layer-Wise Sparsity Profiling and Online Bidirectional Co-Clustering
- arxiv url: http://arxiv.org/abs/2603.18636v1
- Date: Thu, 19 Mar 2026 09:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.046059
- Title: Training-Free Sparse Attention for Fast Video Generation via Offline Layer-Wise Sparsity Profiling and Online Bidirectional Co-Clustering
- Title(参考訳): オフライン層幅空間プロファイリングとオンライン双方向協調クラスタリングによる高速ビデオ生成のための訓練不要スパース注意
- Authors: Jiayi Luo, Jiayu Chen, Jiankun Wang, Cong Wang, Hanxin Zhu, Qingyun Sun, Chen Gao, Zhibo Chen, Jianxin Li,
- Abstract要約: 拡散変換器 (DiT) は高画質な映像生成を実現するが, 重度な3次元注意により高い推論コストを被る。
SVOOは、オフライン層ワイド・スパシティ・プロファイリングとオンライン双方向協調クラスタリングによる高速ビデオ生成のためのトレーニング不要なスパースアテンションフレームワークである。
- 参考スコア(独自算出の注目度): 32.40731465958384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformers (DiTs) achieve strong video generation quality but suffer from high inference cost due to dense 3D attention, leading to the development of sparse attention technologies to improve efficiency. However, existing training-free sparse attention methods in video generation still face two unresolved limitations: ignoring layer heterogeneity in attention pruning and ignoring query-key coupling in block partitioning, which hinder a better quality-speedup trade-off. In this work, we uncover a critical insight that the attention sparsity of each layer is its intrinsic property, with minor effects across different inputs. Motivated by this, we propose SVOO, a training-free Sparse attention framework for fast Video generation via Offline layer-wise sparsity profiling and Online bidirectional co-clustering. Specifically, SVOO adopts a two-stage paradigm: (i) offline layer-wise sensitivity profiling to derive intrinsic per-layer pruning levels, and (ii) online block-wise sparse attention via a novel bidirectional co-clustering algorithm. Extensive experiments on seven widely used video generation models demonstrate that SVOO achieves a superior quality-speedup trade-off over state-of-the-art methods, delivering up to $1.93\times$ speedup while maintaining a PSNR of up to 29 dB on Wan2.1.
- Abstract(参考訳): 拡散トランスフォーマー(DiT)は,高画質な映像生成を実現するが,高密度の3次元注目により高い推論コストに悩まされる。
しかし、ビデオ生成における既存のトレーニング不要なスパースアテンション手法は、注意の刈り取りにおける層の不均一性を無視し、ブロック分割におけるクエリキー結合を無視し、品質向上のトレードオフを妨げている、という2つの未解決の制限に直面している。
本研究では,各層の注意空間が固有の特性であり,異なる入力に対して小さな影響があるという批判的知見を明らかにする。
SVOOはオフライン層ワイド・スパシティ・プロファイリングとオンライン双方向協調クラスタリングによる高速ビデオ生成のためのトレーニング不要なスパースアテンションフレームワークである。
具体的には、SVOOは2段階のパラダイムを採用しています。
(i)本質的層間プルーニングレベルを導出するオフライン層感度プロファイリング
(II) 双方向協調クラスタリングによるオンラインブロックワイズアテンション
広く使用されている7つのビデオ生成モデルに関する大規模な実験では、SVOOは最先端の手法よりも優れた品質と速度のトレードオフを実現し、Wan2.1上で最大29dBのPSNRを維持しながら最大1.93\times$のスピードアップを実現している。
関連論文リスト
- SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer [58.79642223409644]
拡散変換器は近年,映像生成において顕著な性能を示した。
SALADの提案は、疎度な注意と並行して、軽量な線形注意分岐を導入することである。
提案手法は,全注目ベースラインに匹敵する生成品質を維持しつつ,90%の間隔と1.72倍の推論高速化を実現する。
論文 参考訳(メタデータ) (2026-01-23T07:28:53Z) - USV: Unified Sparsification for Accelerating Video Diffusion Models [11.011602744993942]
ビデオ拡散モデルのための統一スパシフィケーションは、エンドツーエンドのトレーニング可能なフレームワークである。
モデルの内部計算とサンプリングプロセスの両方でスパーシフィケーションをオーケストレーションする。
最大83.3%のスピードアップと22.7%のエンドツーエンドの加速を実現し、高い視力を維持している。
論文 参考訳(メタデータ) (2025-12-05T14:40:06Z) - LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation [19.69237169218592]
対象とする自己注意モジュール数を線形注意で置き換える,効率的なデータフリーポストトレーニングフレームワークを提案する。
生成品質を保ちながら1.25-2.00xの高速化を実現し、4段階蒸留モデルにより、視覚的品質低下を最小限に抑えた15.92倍の遅延低減を実現した。
論文 参考訳(メタデータ) (2025-10-09T15:03:39Z) - Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer [13.545000689565732]
トランスフォーマーベースのビデオ拡散モデル(VDM)は、最先端のビデオ生成の品質を提供するが、自己注意の二次コストに制約される。
我々は,訓練前のVDMの注意をスクラッチからトレーニングすることなくリニアライズあるいはハイブリダイズするための効果的なフレームワークである注意外科を紹介した。
論文 参考訳(メタデータ) (2025-09-29T15:09:51Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - FPSAttention: Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion [44.206702976963676]
FPSAttentionは、ビデオ生成のためのFP8量子化とスパーシリティの新たなコデザインである。
1) 量子化とスパーシリティの両方を同時にサポートする統一された3Dタイルワイドの粒度,2) ノイズスケジュールに適応し,量子化/スパーシティエラーとデノナイズステップの強い相関に対処するデノナイズされたステップアウェア戦略,3) FlashAttentionを活用するネイティブなハードウェアフレンドリーなカーネル。
論文 参考訳(メタデータ) (2025-06-05T05:30:30Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。
新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。
メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T21:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。