論文の概要: Bidirectional Sparse Attention for Faster Video Diffusion Training
- arxiv url: http://arxiv.org/abs/2509.01085v1
- Date: Mon, 01 Sep 2025 03:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.535083
- Title: Bidirectional Sparse Attention for Faster Video Diffusion Training
- Title(参考訳): 高速ビデオ拡散訓練のための双方向スパース注意
- Authors: Chenlu Zhan, Wen Li, Chuyu Shen, Jun Zhang, Suhui Wu, Hao Zhang,
- Abstract要約: ビデオ拡散トランスフォーマー(DiT)モデルは、生成品質は優れているが、高解像度の長期ビデオを生成する際に大きな計算ボトルネックにぶつかる。
本稿では,2方向スパースアテンション(BSA)フレームワークを提案する。このフレームワークは,クエリとキー-バリューのペアを動的に3Dフルアテンション内に分散させる。
BSAは長いシーケンスにわたるDiTトレーニングを著しく加速し、FLOPを最大20倍に減らし、17.79倍のアテンショントレーニングを達成した。
- 参考スコア(独自算出の注目度): 14.523882232476092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video diffusion Transformer (DiT) models excel in generative quality but hit major computational bottlenecks when producing high-resolution, long-duration videos. The quadratic complexity of full attention leads to prohibitively high training and inference costs. Full attention inefficiency stems from two key challenges: excessive computation due to the inherent sparsity of Queries and Key-Value pairs, and redundant computation as fixed sparse patterns fail to leverage DiT's dynamic attention. To overcome this limitation, we propose a Bidirectional Sparse Attention (BSA) framework for faster video DiT training, the first to dynamically sparsify both Queries and Key-Value pairs within 3D full attention, thereby substantially improving training and inference efficiency. BSA addresses these issues through two key components. Query sparsity is optimized by selecting the most informative query tokens via semantic similarity and with a dynamic spatial-time training strategy, while KV sparsity is achieved by computing a statistical dynamic threshold to retain only the most salient KV blocks for computation. Extensive experiments demonstrate that BSA significantly accelerates DiT training across long sequences, reducing FLOPs by up to 20x and achieving 17.79x faster attention training, while preserving or even surpassing the generative quality of full attention.
- Abstract(参考訳): ビデオ拡散トランスフォーマー(DiT)モデルは、生成品質は優れているが、高解像度の長期ビデオを生成する際に大きな計算ボトルネックにぶつかる。
注意の二次的な複雑さは、違法に高いトレーニングと推論コストをもたらす。
完全注意の非効率性は、クエリとキー-バリューペアの本質的な間隔による過剰な計算と、固定されたスパースパターンがDiTのダイナミックな注意力を利用するのに失敗する冗長な計算の2つの主要な課題に起因している。
この制限を克服するために,2方向スパースアテンション(BSA)フレームワークを提案する。このフレームワークは3次元フルアテンション内でクエリとキー-バリューのペアを動的にスペーシングし,トレーニングと推論効率を大幅に向上させる。
BSAは2つの主要なコンポーネントを通してこれらの問題に対処する。
クエリの空間性は、セマンティックな類似性や動的空間時間トレーニング戦略によって最も情報性の高いクエリトークンを選択することで最適化される一方、KVの空間性は、計算に最も有効なKVブロックのみを保持するために統計的ダイナミックしきい値を計算することによって達成される。
大規模な実験により、BSAは長いシーケンスにわたるDiTトレーニングを著しく加速し、FLOPを最大20倍、注意訓練を17.79倍速くし、完全な注意の生成品質を保ったり超えたりしている。
関連論文リスト
- VMoBA: Mixture-of-Block Attention for Video Diffusion Models [29.183614108287276]
本稿では,ビデオ拡散モデル(VDM)に特化して適応する新しい注意機構,VMoBAについて紹介する。
VMoBAは、事前訓練されたビデオトランスフォーマー内の注意パターンの詳細な分析によって、オリジナルのMoBAフレームワークを3つの重要な修正で強化する。
VMoBAは、長いシーケンスでのVDMのトレーニングを著しく加速し、2.92倍のFLOPと1.48倍のレイテンシ高速化を実現している。
論文 参考訳(メタデータ) (2025-06-30T13:52:31Z) - FullDiT2: Efficient In-Context Conditioning for Video Diffusion Transformers [63.788600404496115]
FullDiT2は、ビデオ生成と編集の両方における一般的な制御性のための効率的なコンテキスト内条件付けフレームワークである。
FullDiT2は、拡散ステップ当たりの平均時間コストにおいて、計算の大幅な削減と2~3倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:57:09Z) - VORTA: Efficient Video Diffusion via Routing Sparse Attention [45.269274789183974]
ビデオ拡散変換器(VDiT)は高品質なビデオ生成において顕著な進歩を遂げているが、計算コストは依然として高い。
2つの新しいコンポーネントを持つ加速度フレームワーク VORTA を提案する。
VBenchでは品質を損なうことなく、エンドツーエンドのスピードアップを1.76タイムで達成している。
論文 参考訳(メタデータ) (2025-05-24T17:46:47Z) - VSA: Faster Video Diffusion with Trainable Sparse Attention [21.593548582058403]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。