論文の概要: HASTE: Training-Free Video Diffusion Acceleration via Head-Wise Adaptive Sparse Attention
- arxiv url: http://arxiv.org/abs/2605.14513v1
- Date: Thu, 14 May 2026 07:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.696564
- Title: HASTE: Training-Free Video Diffusion Acceleration via Head-Wise Adaptive Sparse Attention
- Title(参考訳): HASTE: ヘッドウェイズ適応スパース注意によるトレーニングフリービデオ拡散加速
- Authors: Xuzhe Zheng, Yuexiao Ma, Jing Xu, Xiawu Zheng, Rongrong Ji, Fei Chao,
- Abstract要約: トレーニング不要のスパースアテンションは、トレーニングなしで事前トレーニングされたモデルを加速するため、魅力的である。
既存のオンラインのトップ$p$のスパース・アテンションは、マスクの予測に何の費用もかからない。
これら2つの見過ごされた要因は、ビデオDiTにおけるトレーニング不要のスパースアテンションの実践的スピード品質トレードオフを制限していることを示す。
- 参考スコア(独自算出の注目度): 68.95533683996236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based video generation has advanced substantially in visual fidelity and temporal coherence, but practical deployment remains limited by the quadratic complexity of full attention. Training-free sparse attention is attractive because it accelerates pretrained models without retraining, yet existing online top-$p$ sparse attention still spends non-negligible cost on mask prediction and applies shared thresholds despite strong head-level heterogeneity. We show that these two overlooked factors limit the practical speed-quality trade-off of training-free sparse attention in Video DiTs. To address them, we introduce a head-wise adaptive framework with two plug-in components: Temporal Mask Reuse, which skips unnecessary mask prediction based on query-key drift, and Error-guided Budgeted Calibration, which assigns per-head top-$p$ thresholds by minimizing measured model-output error under a global sparsity budget. On Wan2.1-1.3B and Wan2.1-14B, our method consistently improves XAttention and SVG2, achieving up to 1.93 times speedup at 720P while maintaining competitive video quality and similarity metrics.
- Abstract(参考訳): 拡散に基づくビデオ生成は、視覚的忠実度と時間的コヒーレンスにおいて大きく進歩しているが、実際の展開は注意の二次的複雑さによって制限されている。
トレーニングなしのスパース・アテンションは、トレーニングなしで事前トレーニングされたモデルを加速するが、既存のオンライントップ・ドル・スパース・アテンションはマスクの予測に無視できないコストを費やし、ヘッドレベルのヘテロジニティが強いにもかかわらず共有しきい値を適用しているため、魅力的である。
これら2つの見過ごされた要因は、ビデオDiTにおけるトレーニング不要のスパースアテンションの実践的スピード品質トレードオフを制限していることを示す。
そこで本稿では,クエリキードリフトに基づく不必要なマスク予測をスキップするTemporal Mask Reuseと,グローバルな疎度予算の下で測定されたモデル出力エラーを最小限に抑えることで,ヘッド当たりのp$閾値を割り当てるError-guided Budgeted Calibrationという,2つのプラグインコンポーネントによるヘッドワイド適応フレームワークを導入する。
Wan2.1-1.3BとWan2.1-14Bでは、XAttentionとSVG2を一貫して改善し、720Pで最大1.93倍の高速化を実現し、競争力のあるビデオ品質と類似度指標を維持した。
関連論文リスト
- Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation [52.10062792673558]
自動ストリーミングビデオ拡散モデルを実用化するために、蒸留ベースの加速が基礎となっている。
既存の方法は、すべてのロールアウト、フレーム、ピクセルを同様に信頼できる監視として扱う。
本稿では,信頼性に配慮したリワード蒸留フレームワークStream-R1を提案する。
論文 参考訳(メタデータ) (2026-05-05T15:15:30Z) - Training-Free Sparse Attention for Fast Video Generation via Offline Layer-Wise Sparsity Profiling and Online Bidirectional Co-Clustering [32.40731465958384]
拡散変換器 (DiT) は高画質な映像生成を実現するが, 重度な3次元注意により高い推論コストを被る。
SVOOは、オフライン層ワイド・スパシティ・プロファイリングとオンライン双方向協調クラスタリングによる高速ビデオ生成のためのトレーニング不要なスパースアテンションフレームワークである。
論文 参考訳(メタデータ) (2026-03-19T09:00:08Z) - SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer [58.79642223409644]
拡散変換器は近年,映像生成において顕著な性能を示した。
SALADの提案は、疎度な注意と並行して、軽量な線形注意分岐を導入することである。
提案手法は,全注目ベースラインに匹敵する生成品質を維持しつつ,90%の間隔と1.72倍の推論高速化を実現する。
論文 参考訳(メタデータ) (2026-01-23T07:28:53Z) - Attention Surgery: An Efficient Recipe to Linearize Your Video Diffusion Transformer [13.545000689565732]
トランスフォーマーベースのビデオ拡散モデル(VDM)は、最先端のビデオ生成の品質を提供するが、自己注意の二次コストに制約される。
我々は,訓練前のVDMの注意をスクラッチからトレーニングすることなくリニアライズあるいはハイブリダイズするための効果的なフレームワークである注意外科を紹介した。
論文 参考訳(メタデータ) (2025-09-29T15:09:51Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [38.76559841681518]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - VSA: Faster Video Diffusion with Trainable Sparse Attention [38.37291040904089]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。