論文の概要: DFSAttn: Dynamic Fine-grained Sparse Attention for Efficient Video Generation
- arxiv url: http://arxiv.org/abs/2605.23445v1
- Date: Fri, 22 May 2026 09:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.299683
- Title: DFSAttn: Dynamic Fine-grained Sparse Attention for Efficient Video Generation
- Title(参考訳): DFSAttn:高能率ビデオ生成のための動的きめ細かなスパークアテンション
- Authors: Jie Hu, Zixiang Gao, Yutong He, Kun Yuan,
- Abstract要約: 拡散3Dフルアテンションは、注意の二次的な複雑さのために計算コストを禁ずる。
DFSAttnは、動的できめ細かなスペーシングを効率的に実現する訓練不要なスパースアテンションフレームワークである。
- 参考スコア(独自算出の注目度): 15.509814124582926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion transformers have achieved remarkable success in high-quality video generation, yet their reliance on spatiotemporal 3D full attention incurs prohibitive computational cost due to the quadratic complexity of attention. Block sparse attention is a common approach to mitigate this by focusing computation on important regions. However, attention maps in DiTs exhibit inherently dynamic and fine-grained sparsity, which causes existing block sparse attention methods to degrade significantly in quality, especially at high sparsity ratios. In this paper, we revisit block sparse attention and derive a theoretical lower bound on attention recall to characterize the key factors governing its effectiveness. Guided by these insights, we propose DFSAttn, a training-free sparse attention framework that enables dynamic, fine-grained sparsification efficiently. DFSAttn incorporates three core designs: Hilbert curve-based token reordering to achieve fine-grained sparsity while preserving efficient GPU execution, hierarchical block scoring for accurate block importance estimation, and sparse mask caching with adaptive ratios to balance accuracy and efficiency. Experimental results demonstrate that DFSAttn consistently outperforms prior methods under high sparsity, achieving up to 2.1$\times$ end-to-end speedup while maintaining high generation quality. Our code is open-sourced and available at https://github.com/jessica-hujie/DFSAttn.
- Abstract(参考訳): 拡散変換器は高品質なビデオ生成において顕著な成功を収めてきたが、時空間3Dのフルアテンションに依存しているため、注意の二次的複雑さにより計算コストが禁じられている。
ブロックスパース注意(Block sparse attention)は、重要な領域に計算を集中させることによってこれを緩和する一般的なアプローチである。
しかし、DiTsのアテンションマップは本質的に動的できめ細かなスポーシティを示し、既存のブロックスパースアテンション法は特に高スポーシティ比で品質が著しく低下する。
本稿では,スパークアテンションのブロックを再検討し,アテンションリコールの理論的下位限を導出し,その有効性を規定する重要な要因を特徴付ける。
これらの知見に導かれたDFSAttnは、動的できめ細かなスペーシングを効率的に実現する訓練不要なスパースアテンションフレームワークである。
DFSAttnには、3つのコア設計が含まれている: 効率的なGPU実行を保ちながら微細なスペーシングを実現するためのヒルベルト曲線ベースのトークンリオーダー、正確なブロック重要度推定のための階層的ブロックスコアリング、正確性と効率のバランスをとるための適応比を持つスパースマスクキャッシュ。
実験結果から、DFSAttnは高い周波数範囲で従来手法より一貫して優れており、高い生成品質を維持しつつ、最大2.1$\times$ end-to-endのスピードアップを実現していることが示された。
私たちのコードはオープンソースで、https://github.com/jessica-hujie/DFSAttn.comで公開されています。
関連論文リスト
- SparVAR: Exploring Sparsity in Visual AutoRegressive Modeling for Training-Free Acceleration [23.86429472943524]
本稿では,視覚的オートレグレッシブ・アテンションの3つの特性,すなわち強いアテンション・シンク,大規模アクティベーション類似性,局所性の3つの特性を利用する,トレーニング不要なアクティベーション・フレームワークを提案する。
具体的には、後続の高分解能尺度のスパースアテンションパターンをスパース決定尺度から動的に予測し、効率的なインデックスマッピング機構を用いて自己相似スパースアテンションを構築する。
提案手法は、ほぼすべての高周波の詳細を保存しながら、$mathbf1.57times$ Speed-upを実現する。
論文 参考訳(メタデータ) (2026-02-04T09:34:06Z) - PSA: Pyramid Sparse Attention for Efficient Video Understanding and Generation [34.8993443618652]
本稿では,映像理解と生成の両方に応用可能な汎用モジュールであるPraamid Sparse Attention (PSA)を提案する。
バイナリマスクの代わりに、PSAはマルチレベルプールされたKV表現を導入し、より微細なマスクの粒度を実現した。
この設計は、コンピュータビジョンにおける固定点量子化や古典的特徴ピラミッドネットワークに似ているが、計算効率を低く保ちながら、情報損失を効果的に軽減する。
論文 参考訳(メタデータ) (2025-12-03T18:02:11Z) - ProxyAttn: Guided Sparse Attention via Representative Heads [59.03412871683236]
より正確なブロック推定を実現する訓練不要なスパースアテンションアルゴリズムであるProxyAttnを提案する。
本稿では,ProxyAttnが最大10.3倍の注意加速度と2.4倍の事前充足加速度を実現できることを示す。
論文 参考訳(メタデータ) (2025-09-29T13:10:39Z) - Bidirectional Sparse Attention for Faster Video Diffusion Training [14.523882232476092]
ビデオ拡散トランスフォーマー(DiT)モデルは、生成品質は優れているが、高解像度の長期ビデオを生成する際に大きな計算ボトルネックにぶつかる。
本稿では,2方向スパースアテンション(BSA)フレームワークを提案する。このフレームワークは,クエリとキー-バリューのペアを動的に3Dフルアテンション内に分散させる。
BSAは長いシーケンスにわたるDiTトレーニングを著しく加速し、FLOPを最大20倍に減らし、17.79倍のアテンショントレーニングを達成した。
論文 参考訳(メタデータ) (2025-09-01T03:16:52Z) - iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation [49.8026360054331]
iFlameはメッシュ生成のためのトランスフォーマーベースの新しいネットワークアーキテクチャである。
本稿では,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリービング自己回帰メッシュ生成フレームワークを提案する。
提案するインターリービングフレームワークは,計算効率と生成性能を効果的にバランスさせることが示唆された。
論文 参考訳(メタデータ) (2025-03-20T19:10:37Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。