論文の概要: FPSAttention: Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion
- arxiv url: http://arxiv.org/abs/2506.04648v2
- Date: Fri, 06 Jun 2025 03:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 13:19:54.245726
- Title: FPSAttention: Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion
- Title(参考訳): FPSAttention:高速ビデオ拡散のためのトレーニング対応FP8とスパーシティ共同設計
- Authors: Akide Liu, Zeyu Zhang, Zhexin Li, Xuehai Bai, Yizeng Han, Jiasheng Tang, Yuanjie Xing, Jichao Wu, Mingyang Yang, Weihua Chen, Jiahao He, Yuanyu He, Fan Wang, Gholamreza Haffari, Bohan Zhuang,
- Abstract要約: FPSAttentionは、ビデオ生成のためのFP8量子化とスパーシリティの新たなコデザインである。
1) 量子化とスパーシリティの両方を同時にサポートする統一された3Dタイルワイドの粒度,2) ノイズスケジュールに適応し,量子化/スパーシティエラーとデノナイズステップの強い相関に対処するデノナイズされたステップアウェア戦略,3) FlashAttentionを活用するネイティブなハードウェアフレンドリーなカーネル。
- 参考スコア(独自算出の注目度): 44.206702976963676
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion generative models have become the standard for producing high-quality, coherent video content, yet their slow inference speeds and high computational demands hinder practical deployment. Although both quantization and sparsity can independently accelerate inference while maintaining generation quality, naively combining these techniques in existing training-free approaches leads to significant performance degradation due to the lack of joint optimization. We introduce FPSAttention, a novel training-aware co-design of FP8 quantization and sparsity for video generation, with a focus on the 3D bi-directional attention mechanism. Our approach features three key innovations: 1) A unified 3D tile-wise granularity that simultaneously supports both quantization and sparsity; 2) A denoising step-aware strategy that adapts to the noise schedule, addressing the strong correlation between quantization/sparsity errors and denoising steps; 3) A native, hardware-friendly kernel that leverages FlashAttention and is implemented with optimized Hopper architecture features for highly efficient execution. Trained on Wan2.1's 1.3B and 14B models and evaluated on the VBench benchmark, FPSAttention achieves a 7.09x kernel speedup for attention operations and a 4.96x end-to-end speedup for video generation compared to the BF16 baseline at 720p resolution-without sacrificing generation quality.
- Abstract(参考訳): 拡散生成モデルは高品質でコヒーレントなビデオコンテンツを制作するための標準となっているが、推論速度が遅く、高い計算要求が現実的な展開を妨げている。
量子化とスパーシリティは、生成品質を維持しながら独立して推論を加速することができるが、これらの手法を既存のトレーニングなしのアプローチにネイリーに組み合わせることで、共同最適化の欠如により性能が著しく低下する。
本稿では,FPSAttentionについて紹介する。FP8量子化とビデオ生成のスパーシリティの新たなコデザインであるFPSAttentionを3次元双方向アテンション機構に焦点をあてる。
このアプローチには3つの重要なイノベーションがあります。
1) 量子化と空間性の両方を同時に支援する3次元タイルの粒度統一化
2 ノイズスケジュールに適応し、量子化/スパーシティエラーとデノイズ化ステップとの強い相関に対処するデノイズ化ステップ対応戦略
3) FlashAttentionを活用するネイティブなハードウェアフレンドリーなカーネルで、高度に効率的な実行のために最適化されたHopperアーキテクチャ機能で実装されている。
Wan2.1の1.3Bと14Bモデルで訓練され、VBenchベンチマークで評価され、FPSAttentionは注意操作のための7.09倍のカーネルスピードアップとビデオ生成のための4.96倍のエンドツーエンドスピードアップを達成した。
関連論文リスト
- Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [16.99620863197586]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
拡散言語モデルが初めて、広く採用されている自己回帰モデルと同等かつ高速なレイテンシを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - VORTA: Efficient Video Diffusion via Routing Sparse Attention [45.269274789183974]
ビデオ拡散変換器(VDiT)は高品質なビデオ生成において顕著な進歩を遂げているが、計算コストは依然として高い。
2つの新しいコンポーネントを持つ加速度フレームワーク VORTA を提案する。
VBenchでは品質を損なうことなく、エンドツーエンドのスピードアップを1.76タイムで達成している。
論文 参考訳(メタデータ) (2025-05-24T17:46:47Z) - Acc3D: Accelerating Single Image to 3D Diffusion Models via Edge Consistency Guided Score Distillation [49.202383675543466]
本稿では,単一画像から3次元モデルを生成する拡散過程の高速化に取り組むために,Acc3Dを提案する。
数段階の推論によって高品質な再構成を導出するため,ランダムノイズ状態におけるスコア関数の学習を規則化する上で重要な課題を強調した。
論文 参考訳(メタデータ) (2025-03-20T09:18:10Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Efficiency Meets Fidelity: A Novel Quantization Framework for Stable Diffusion [9.402892455344677]
安定拡散モデル(SDM)のための効率的な量子化フレームワークを提案する。
我々のフレームワークはトレーニングと推論の一貫性を同時に維持し、最適化の安定性を確保する。
本手法は,訓練時間を短縮した最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-09T17:00:20Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。