論文の概要: Faster Video Diffusion with Trainable Sparse Attention
- arxiv url: http://arxiv.org/abs/2505.13389v2
- Date: Wed, 21 May 2025 15:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 13:19:52.3392
- Title: Faster Video Diffusion with Trainable Sparse Attention
- Title(参考訳): トレーニング可能なスパース注意による高速ビデオ拡散
- Authors: Peiyuan Zhang, Haofeng Huang, Yongqi Chen, Will Lin, Zhengzhong Liu, Ion Stoica, Eric Xing, Hao Zhang,
- Abstract要約: ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
- 参考スコア(独自算出の注目度): 21.593548582058403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling video diffusion transformers (DiTs) is limited by their quadratic 3D attention, even though most of the attention mass concentrates on a small subset of positions. We turn this observation into VSA, a trainable, hardware-efficient sparse attention that replaces full attention at \emph{both} training and inference. In VSA, a lightweight coarse stage pools tokens into tiles and identifies high-weight \emph{critical tokens}; a fine stage computes token-level attention only inside those tiles subjecting to block computing layout to ensure hard efficiency. This leads to a single differentiable kernel that trains end-to-end, requires no post-hoc profiling, and sustains 85\% of FlashAttention3 MFU. We perform a large sweep of ablation studies and scaling-law experiments by pretraining DiTs from 60M to 1.4B parameters. VSA reaches a Pareto point that cuts training FLOPS by 2.53$\times$ with no drop in diffusion loss. Retrofitting the open-source Wan-2.1 model speeds up attention time by 6$\times$ and lowers end-to-end generation time from 31s to 18s with comparable quality. These results establish trainable sparse attention as a practical alternative to full attention and a key enabler for further scaling of video diffusion models.
- Abstract(参考訳): ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の高いスパースアテンションであるVSAに変換し、トレーニングと推論における完全な注意を置き換えます。
VSAでは、軽量な粗いステージがトークンをタイルにプールし、ハイウェイトな \emph{ critical tokens} を識別する。
これにより、エンドツーエンドをトレーニングし、ポストホックプロファイリングを必要とせず、FlashAttention3 MFUの85%を維持できる、単一の差別化可能なカーネルが作られる。
60M から 1.4B のパラメータから DiT を事前学習することで, アブレーション研究とスケーリング法則の実験を大規模に実施する。
VSAは、FLOPSのトレーニングを2.53$\times$に削減するParetoポイントに達する。
オープンソースのWan-2.1モデルの再適合は、注意時間を6$\times$でスピードアップし、エンドツーエンドの生成時間を31sから18sに短縮する。
これらの結果は、フルアテンションに代わる実用的な代替手段としての訓練可能なスパースアテンションと、ビデオ拡散モデルのさらなるスケーリングのための重要な有効性を確立した。
関連論文リスト
- SageAttention3: Microscaling FP4 Attention for Inference and An Exploration of 8-Bit Training [24.78957823032679]
我々は、ブラックウェルGPUにおける新しいFP4 Coreを活用して、注意計算を高速化する。
実験により、FP4の注意は、プラグ・アンド・プレイ方式で様々なモデルの推論を加速できることが示された。
トレーニングタスクへの低ビットの注意を開拓しました。
論文 参考訳(メタデータ) (2025-05-16T18:01:54Z) - DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training [85.04885553561164]
Diffusion Transformer (DiTs) は高品質なビデオの生成において顕著な性能を示した。
DiTは処理時間の95%を消費し、特別なコンテキスト並列性を要求する。
本稿では,経験的に観察したダイナミックアテンション空間を利用して,DSVによるビデオDiTトレーニングを高速化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T14:39:59Z) - Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile [28.913893318345384]
3次元フルアテンションを持つ拡散変換器(DiT)は、注意計算の複雑さと多数のサンプリングステップにより、高価な推論に悩まされる。
本稿では,1)ビデオデータの冗長性に基づく3Dフルアテンションの抽出,2)既存の多段整合蒸留によるサンプリングプロセスの短縮,の2つの側面から非効率性の問題に対処する。
論文 参考訳(メタデータ) (2025-02-10T05:00:56Z) - Fast Video Generation with Sliding Tile Attention [19.47866950957766]
たった5秒の720P動画を撮ると、945秒の推測時間のうち800秒は注意がかかります。
本稿では,この課題に対処するためにスライディングタイルアテンション(STA)を導入する。
STAは、新しいハードウェア対応のスライディングウィンドウデザインでタイル・バイ・タイルを運用している。
論文 参考訳(メタデータ) (2025-02-06T21:17:09Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。