論文の概要: Veda: Scalable Video Diffusion via Distilled Sparse Attention
- arxiv url: http://arxiv.org/abs/2605.30325v1
- Date: Thu, 28 May 2026 17:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.736369
- Title: Veda: Scalable Video Diffusion via Distilled Sparse Attention
- Title(参考訳): Veda: 希薄なスパース注意によるスケーラブルなビデオ拡散
- Authors: Shihao Han, Hao Yang, Xinting Hu, Xiaofeng Mei, Yi Jiang, Xiaojuan Qi,
- Abstract要約: 生成品質はスパーシティ比自身ではなく,スパースマスクがフルアテンションのタイルワイズ形状とどの程度よく一致しているかによって決定されることを示す。
本稿では,タイル選択を全注意から明示的な再構築問題として定式化する蒸留スパークアテンションフレームワークであるVedaを提案する。
- 参考スコア(独自算出の注目度): 38.39010826063852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling Diffusion Transformers to generate high-resolution, long videos is constrained by the quadratic cost of self-attention, and existing sparse attention methods degrade under high sparsity. We show empirically that generation quality is determined not by the sparsity ratio itself, but by how well the sparse mask aligns with the tile-wise geometry of full attention. Based on this insight, we propose Veda, a distilled sparse attention framework that formulates tile selection as an explicit reconstruction problem from full attention. Veda integrates statistics-aware tile scoring with head-aware tiling to reduce estimation error and structural mismatch, enabling aggressive sparsity. A hardware-efficient tile-skipping kernel converts theoretical sparsity into practical wall-clock speedups. Experiments on large video diffusion models, including Waver and Wan2.1, demonstrate substantial acceleration with no noticeable degradation in generation quality. To generate 720P 10-second videos on Waver-T2V-12B, Veda achieves a 5.1$\times$ end-to-end speedup and a 10.5$\times$ self-attention speedup, reducing attention overhead from 92% to 50%. Notably, the gains increase with sequence length, indicating that Veda scales favorably with spatiotemporal resolution across models.
- Abstract(参考訳): 高解像度長ビデオを生成するための拡散変換器のスケーリングは、自己注意の二次的コストに制約され、既存のスパースアテンション法は、高頻度で劣化する。
生成の質は空間比そのものではなく、スパースマスクがフルアテンションのタイル回りの形状といかによく一致しているかを実証的に示す。
この知見に基づいて,タイル選択を全注意から明示的な再構築問題として定式化する蒸留スパークアテンションフレームワークであるVedaを提案する。
Vedaは統計認識タイルスコアと頭部認識タイルスコアを統合して、推定誤差と構造ミスマッチを低減し、積極的なスパシティを実現する。
ハードウェア効率のよいタイルスキッピングカーネルは、理論空間を実用的なウォールクロックスピードアップに変換する。
Waver や Wan2.1 を含む大規模なビデオ拡散モデルの実験では、生成品質の顕著な劣化を伴わない相当な加速が示されている。
Waver-T2V-12Bで720Pの10秒ビデオを生成するために、Vedaは5.1$\times$エンドツーエンドのスピードアップと10.5$\times$セルフアテンションのスピードアップを達成した。
特に、ゲインはシーケンス長とともに増加し、モデル間の時空間分解能とともにベダが好適にスケールすることを示す。
関連論文リスト
- HASTE: Training-Free Video Diffusion Acceleration via Head-Wise Adaptive Sparse Attention [68.95533683996236]
トレーニング不要のスパースアテンションは、トレーニングなしで事前トレーニングされたモデルを加速するため、魅力的である。
既存のオンラインのトップ$p$のスパース・アテンションは、マスクの予測に何の費用もかからない。
これら2つの見過ごされた要因は、ビデオDiTにおけるトレーニング不要のスパースアテンションの実践的スピード品質トレードオフを制限していることを示す。
論文 参考訳(メタデータ) (2026-05-14T07:57:55Z) - Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration [58.19554276924402]
スペクトル拡散特徴予測器(Spectrum)を提案する。
我々はFLUX.1で4.79$times$スピードアップ、Wan2.1-14Bで4.67$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2026-03-02T08:59:11Z) - SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer [58.79642223409644]
拡散変換器は近年,映像生成において顕著な性能を示した。
SALADの提案は、疎度な注意と並行して、軽量な線形注意分岐を導入することである。
提案手法は,全注目ベースラインに匹敵する生成品質を維持しつつ,90%の間隔と1.72倍の推論高速化を実現する。
論文 参考訳(メタデータ) (2026-01-23T07:28:53Z) - SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention [88.47701139980636]
Diffusion Transformer(DiT)モデルでは、特にビデオ生成において、注意遅延が大きなボトルネックとなっている。
注目重量は2つの部分に分けられる: 高いランクの大型重量のごく一部と、非常に低いランクの残りの重量の2つである。
本稿では,拡散モデルを高速化するために,疎度と直線的注意を融合させる訓練可能な注意法SLAを提案する。
論文 参考訳(メタデータ) (2025-09-28T17:58:59Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [38.76559841681518]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - VSA: Faster Video Diffusion with Trainable Sparse Attention [38.37291040904089]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance [43.423240627266644]
拡散変換器を用いたビデオ生成モデル(DiTs)は近年,その優れた生成品質に注目が集まっている。
しかしながら、その計算コストは、ボトルネック注意だけで、全体の80%以上の遅延の原因となっている。
本稿では,GPUに動的に注意を向けたビデオ拡散変換器の高速化のためのトレーニングフリーフレームワークであるDraftAttentionを提案する。
論文 参考訳(メタデータ) (2025-05-17T04:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。