論文の概要: FPSAttention: Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion
- arxiv url: http://arxiv.org/abs/2506.04648v2
- Date: Fri, 06 Jun 2025 03:12:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 13:19:54.245726
- Title: FPSAttention: Training-Aware FP8 and Sparsity Co-Design for Fast Video Diffusion
- Title(参考訳): FPSAttention:高速ビデオ拡散のためのトレーニング対応FP8とスパーシティ共同設計
- Authors: Akide Liu, Zeyu Zhang, Zhexin Li, Xuehai Bai, Yizeng Han, Jiasheng Tang, Yuanjie Xing, Jichao Wu, Mingyang Yang, Weihua Chen, Jiahao He, Yuanyu He, Fan Wang, Gholamreza Haffari, Bohan Zhuang,
- Abstract要約: FPSAttentionは、ビデオ生成のためのFP8量子化とスパーシリティの新たなコデザインである。
1) 量子化とスパーシリティの両方を同時にサポートする統一された3Dタイルワイドの粒度,2) ノイズスケジュールに適応し,量子化/スパーシティエラーとデノナイズステップの強い相関に対処するデノナイズされたステップアウェア戦略,3) FlashAttentionを活用するネイティブなハードウェアフレンドリーなカーネル。
- 参考スコア(独自算出の注目度): 44.206702976963676
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion generative models have become the standard for producing high-quality, coherent video content, yet their slow inference speeds and high computational demands hinder practical deployment. Although both quantization and sparsity can independently accelerate inference while maintaining generation quality, naively combining these techniques in existing training-free approaches leads to significant performance degradation due to the lack of joint optimization. We introduce FPSAttention, a novel training-aware co-design of FP8 quantization and sparsity for video generation, with a focus on the 3D bi-directional attention mechanism. Our approach features three key innovations: 1) A unified 3D tile-wise granularity that simultaneously supports both quantization and sparsity; 2) A denoising step-aware strategy that adapts to the noise schedule, addressing the strong correlation between quantization/sparsity errors and denoising steps; 3) A native, hardware-friendly kernel that leverages FlashAttention and is implemented with optimized Hopper architecture features for highly efficient execution. Trained on Wan2.1's 1.3B and 14B models and evaluated on the VBench benchmark, FPSAttention achieves a 7.09x kernel speedup for attention operations and a 4.96x end-to-end speedup for video generation compared to the BF16 baseline at 720p resolution-without sacrificing generation quality.
- Abstract(参考訳): 拡散生成モデルは高品質でコヒーレントなビデオコンテンツを制作するための標準となっているが、推論速度が遅く、高い計算要求が現実的な展開を妨げている。
量子化とスパーシリティは、生成品質を維持しながら独立して推論を加速することができるが、これらの手法を既存のトレーニングなしのアプローチにネイリーに組み合わせることで、共同最適化の欠如により性能が著しく低下する。
本稿では,FPSAttentionについて紹介する。FP8量子化とビデオ生成のスパーシリティの新たなコデザインであるFPSAttentionを3次元双方向アテンション機構に焦点をあてる。
このアプローチには3つの重要なイノベーションがあります。
1) 量子化と空間性の両方を同時に支援する3次元タイルの粒度統一化
2 ノイズスケジュールに適応し、量子化/スパーシティエラーとデノイズ化ステップとの強い相関に対処するデノイズ化ステップ対応戦略
3) FlashAttentionを活用するネイティブなハードウェアフレンドリーなカーネルで、高度に効率的な実行のために最適化されたHopperアーキテクチャ機能で実装されている。
Wan2.1の1.3Bと14Bモデルで訓練され、VBenchベンチマークで評価され、FPSAttentionは注意操作のための7.09倍のカーネルスピードアップとビデオ生成のための4.96倍のエンドツーエンドスピードアップを達成した。
関連論文リスト
- LESA: Learnable Stage-Aware Predictors for Diffusion Model Acceleration [12.183601881545039]
拡散モデルは画像およびビデオ生成タスクにおいて顕著な成功を収めた。
しかし、拡散変換器の高い計算要求は、実際の展開に重大な課題をもたらす。
2段階トレーニングに基づくLESA(LEarnable Stage-Aware)予測フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-24T02:53:28Z) - Flash-VAED: Plug-and-Play VAE Decoders for Efficient Video Generation [16.210613736589597]
遅延拡散モデルにより高品質なビデオ合成が可能になったが、推論は高価で時間を要するままである。
本稿では,VAEデコーダの高速化フレームワークを提案する。
我々はFlash-VAEDがエンドツーエンド生成パイプラインを最大36%高速化し、VBench-2.0では品質低下が無視できることを示した。
論文 参考訳(メタデータ) (2026-02-22T12:43:50Z) - GPD: Guided Progressive Distillation for Fast and High-Quality Video Generation [48.965157828225074]
高速かつ高品質なビデオ生成のための拡散過程を高速化するフレームワークであるGPD(Guid Progressive Distillation)を提案する。
GPDは、VBench上での競争的な視覚的品質を維持しながら、サンプリングステップを48から6に減らす。
論文 参考訳(メタデータ) (2026-02-02T08:47:33Z) - SoulX-FlashTalk: Real-Time Infinite Streaming of Audio-Driven Avatars via Self-Correcting Bidirectional Distillation [16.34443339642213]
textbfX-FlashTalkは、textbf32 FPSのリアルタイムスループットを達成しながら、textbfsub秒の起動遅延(0.87秒)を達成する14Bスケールのシステムである。
SoulX-FlashTalkは、Textbf32 FPSのリアルタイムスループットを達成しつつ、Textbfsub秒の起動遅延(0.87秒)を達成する最初の14Bスケールシステムである。
論文 参考訳(メタデータ) (2025-12-29T11:18:24Z) - Lightning Fast Caching-based Parallel Denoising Prediction for Accelerating Talking Head Generation [50.04968365065964]
拡散に基づく音声ヘッドモデルは高品質でフォトリアリスティックなビデオを生成するが、推論が遅い。
我々はLightning-fast Caching-based Parallel Denoising Prediction (LightningCP)を紹介する。
また,より高速な注意計算を実現するために,DFA(Decoupled Foreground Attention)を提案する。
論文 参考訳(メタデータ) (2025-08-25T02:58:39Z) - A Lightweight Dual-Mode Optimization for Generative Face Video Coding [26.308480665852052]
生成顔画像符号化(GFVC)は、深部生成モデルの強い推論能力を活用することにより、より優れた速度歪み性能を実現する。
本稿では,再構成品質を維持しつつ,複雑性を低減するために2モード最適化を実現する軽量なGFVCフレームワークを提案する。
実験の結果,GFVCの軽量デュアルモード最適化は,ベースラインに比べて90.4%のパラメータ削減と88.9%の省力化を実現できることがわかった。
論文 参考訳(メタデータ) (2025-08-19T06:09:28Z) - BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation [27.57431718095974]
本稿では,ビデオ推論のためのデータフリー共同学習フレームワークBLADEを紹介する。
異なるスケールで顕著な効率向上を示す。
短いビデオシーケンス長を持つCagVideoX-5Bのようなモデルでは、我々のフレームワークはロバストな8.89倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2025-08-14T15:58:59Z) - Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention [54.15345846343084]
品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。
部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。
実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-23T17:57:16Z) - CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。
本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。
ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-21T05:48:47Z) - VMoBA: Mixture-of-Block Attention for Video Diffusion Models [29.183614108287276]
本稿では,ビデオ拡散モデル(VDM)に特化して適応する新しい注意機構,VMoBAについて紹介する。
VMoBAは、事前訓練されたビデオトランスフォーマー内の注意パターンの詳細な分析によって、オリジナルのMoBAフレームワークを3つの重要な修正で強化する。
VMoBAは、長いシーケンスでのVDMのトレーニングを著しく加速し、2.92倍のFLOPと1.48倍のレイテンシ高速化を実現している。
論文 参考訳(メタデータ) (2025-06-30T13:52:31Z) - Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [16.99620863197586]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
拡散言語モデルが初めて、広く採用されている自己回帰モデルと同等かつ高速なレイテンシを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - VORTA: Efficient Video Diffusion via Routing Sparse Attention [45.269274789183974]
ビデオ拡散変換器(VDiT)は高品質なビデオ生成において顕著な進歩を遂げているが、計算コストは依然として高い。
2つの新しいコンポーネントを持つ加速度フレームワーク VORTA を提案する。
VBenchでは品質を損なうことなく、エンドツーエンドのスピードアップを1.76タイムで達成している。
論文 参考訳(メタデータ) (2025-05-24T17:46:47Z) - Communication-Efficient Diffusion Denoising Parallelization via Reuse-then-Predict Mechanism [18.655659400456848]
拡散モデルは、画像、ビデオ、音声合成を含む様々なモードにわたる強力な生成モデルのクラスとして登場した。
本論文では, 拡散推論を並列化する手法である textbfParaStep を提案する。
ParaStep は SVD の textbf3.88$times$、CogVideoX-2b の textbf2.43$times$、textbf6.56$times
論文 参考訳(メタデータ) (2025-05-20T06:58:40Z) - H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models [97.45170082949552]
オートエンコーダ(AE)は、画像およびビデオ生成のための潜時拡散モデルの成功の鍵である。
H3AEはGPUとモバイルで超高圧縮比とリアルタイムデコード速度を達成する。
論文 参考訳(メタデータ) (2025-04-14T17:59:06Z) - Acc3D: Accelerating Single Image to 3D Diffusion Models via Edge Consistency Guided Score Distillation [49.202383675543466]
本稿では,単一画像から3次元モデルを生成する拡散過程の高速化に取り組むために,Acc3Dを提案する。
数段階の推論によって高品質な再構成を導出するため,ランダムノイズ状態におけるスコア関数の学習を規則化する上で重要な課題を強調した。
論文 参考訳(メタデータ) (2025-03-20T09:18:10Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Efficiency Meets Fidelity: A Novel Quantization Framework for Stable Diffusion [9.402892455344677]
安定拡散モデル(SDM)のための効率的な量子化フレームワークを提案する。
我々のフレームワークはトレーニングと推論の一貫性を同時に維持し、最適化の安定性を確保する。
本手法は,訓練時間を短縮した最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-09T17:00:20Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。