論文の概要: DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance
- arxiv url: http://arxiv.org/abs/2505.14708v1
- Date: Sat, 17 May 2025 04:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.636871
- Title: DraftAttention: Fast Video Diffusion via Low-Resolution Attention Guidance
- Title(参考訳): ドラフトアテンション:低分解能アテンション誘導による高速ビデオ拡散
- Authors: Xuan Shen, Chenxia Han, Yufa Zhou, Yanyue Xie, Yifan Gong, Quanyi Wang, Yiwei Wang, Yanzhi Wang, Pu Zhao, Jiuxiang Gu,
- Abstract要約: 拡散変換器を用いたビデオ生成モデル(DiTs)は近年,その優れた生成品質に注目が集まっている。
しかしながら、その計算コストは、ボトルネック注意だけで、全体の80%以上の遅延の原因となっている。
本稿では,GPUに動的に注意を向けたビデオ拡散変換器の高速化のためのトレーニングフリーフレームワークであるDraftAttentionを提案する。
- 参考スコア(独自算出の注目度): 43.423240627266644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion transformer-based video generation models (DiTs) have recently attracted widespread attention for their excellent generation quality. However, their computational cost remains a major bottleneck-attention alone accounts for over 80% of total latency, and generating just 8 seconds of 720p video takes tens of minutes-posing serious challenges to practical application and scalability. To address this, we propose the DraftAttention, a training-free framework for the acceleration of video diffusion transformers with dynamic sparse attention on GPUs. We apply down-sampling to each feature map across frames in the compressed latent space, enabling a higher-level receptive field over the latent composed of hundreds of thousands of tokens. The low-resolution draft attention map, derived from draft query and key, exposes redundancy both spatially within each feature map and temporally across frames. We reorder the query, key, and value based on the draft attention map to guide the sparse attention computation in full resolution, and subsequently restore their original order after the attention computation. This reordering enables structured sparsity that aligns with hardware-optimized execution. Our theoretical analysis demonstrates that the low-resolution draft attention closely approximates the full attention, providing reliable guidance for constructing accurate sparse attention. Experimental results show that our method outperforms existing sparse attention approaches in video generation quality and achieves up to 1.75x end-to-end speedup on GPUs. Code: https://github.com/shawnricecake/draft-attention
- Abstract(参考訳): 拡散変換器を用いたビデオ生成モデル(DiTs)は近年,その優れた生成品質に注目が集まっている。
しかし、その計算コストは、ボトルネック注意だけでは全体の80%以上のレイテンシを占めており、実際にアプリケーションやスケーラビリティに深刻な課題を課すのに、ほんの8秒の720pビデオを生成するのに何分もかかります。
そこで本稿では,GPUに動的に注意を払ってビデオ拡散変換器を高速化するためのトレーニングフリーフレームワークであるDraftAttentionを提案する。
圧縮された潜在空間のフレーム間の各特徴写像にダウンサンプリングを適用し、数十万のトークンからなる潜在領域上の高レベル受容場を実現する。
ドラフトクエリとキーから導かれる低解像度のドラフトアテンションマップは、各特徴マップ内の空間的およびフレーム間の時間的両方の冗長性を露呈する。
提案手法は,全解像度でスパースアテンション計算を誘導するために,ドラフトアテンションマップに基づいてクエリ,キー,値を再順序付けし,アテンション計算後に元のオーダを復元する。
このリオーダーにより、ハードウェア最適化実行と整合した構造化されたスパーシリティが可能になる。
理論的解析により,低分解能なドラフトアテンションが全注目を近似し,正確なスパースアテンションを構築するための信頼性の高いガイダンスを提供することが示された。
実験結果から,提案手法はビデオ生成品質において,既存の疎度な注目度よりも優れ,GPU上でのエンドツーエンドの最大1.75倍の高速化を実現していることがわかった。
コード:https://github.com/shawnricecake/draft-attention
関連論文リスト
- FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。
ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。
我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T05:00:39Z) - Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile [28.913893318345384]
3次元フルアテンションを持つ拡散変換器(DiT)は、注意計算の複雑さと多数のサンプリングステップにより、高価な推論に悩まされる。
本稿では,1)ビデオデータの冗長性に基づく3Dフルアテンションの抽出,2)既存の多段整合蒸留によるサンプリングプロセスの短縮,の2つの側面から非効率性の問題に対処する。
論文 参考訳(メタデータ) (2025-02-10T05:00:56Z) - Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity [59.80405282381126]
拡散変換器(DiT)はビデオ生成を支配しているが、その高い計算コストは現実の応用性を著しく制限する。
Sparse VideoGen (SVG) と呼ばれる3次元フルアテンションに固有の空間を利用して推論効率を向上する学習自由フレームワークを提案する。
SVGはCagVideoX-v1.5とHunyuanVideoで最大2.28倍と2.33倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-03T19:29:16Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z) - Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。
特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文 参考訳(メタデータ) (2020-03-30T14:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。