論文の概要: Video-BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation
- arxiv url: http://arxiv.org/abs/2508.10774v1
- Date: Thu, 14 Aug 2025 15:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.393446
- Title: Video-BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation
- Title(参考訳): Video-BLADE:Block-Sparse Attention Meets Step Distillation for Efficient Video Generation
- Authors: Youping Gu, Xiaolong Li, Yuhao Hu, Bohan Zhuang,
- Abstract要約: ビデオ推論のためのデータフリーのジョイントトレーニングフレームワークBLADEを提案する。
私たちのフレームワークは、さまざまなスケールで顕著な効率向上を示します。
短いビデオシーケンス長を持つCagVideoX-5Bのようなモデルでは、我々のフレームワークはロバストな8.89倍のスピードアップを提供する。
- 参考スコア(独自算出の注目度): 17.18501092926442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion transformers currently lead the field in high-quality video generation, but their slow iterative denoising process and prohibitive quadratic attention costs for long sequences create significant inference bottlenecks. While both step distillation and sparse attention mechanisms have shown promise as independent acceleration strategies, effectively combining these approaches presents critical challenges -- training-free integration yields suboptimal results, while separately training sparse attention after step distillation requires prohibitively expensive high-quality video data. To overcome these limitations, we propose BLADE, an innovative data-free joint training framework that introduces: (1) an Adaptive Block-Sparse Attention (ASA) mechanism for dynamically generating content-aware sparsity masks to focus computation on salient spatiotemporal features, and (2) a sparsity-aware step distillation paradigm built upon Trajectory Distribution Matching (TDM) that directly incorporates sparsity into the distillation process rather than treating it as a separate compression step, with fast convergence. We validate BLADE on text-to-video models like CogVideoX-5B and Wan2.1-1.3B. Our framework demonstrates remarkable efficiency gains across different scales. On Wan2.1-1.3B, BLADE achieves a 14.10x end-to-end inference acceleration over a 50-step baseline. Moreover, on models such as CogVideoX-5B with short video sequence lengths, our framework delivers a robust 8.89x speedup. Crucially, the acceleration is accompanied by a consistent quality improvement. On the VBench-2.0 benchmark, BLADE boosts the score of CogVideoX-5B to 0.569 (from 0.534) and Wan2.1-1.3B to 0.570 (from 0.563), results that are further corroborated by superior ratings in human evaluations. Our code and model weights are publicly available at: http://ziplab.co/BLADE-Homepage/.
- Abstract(参考訳): 拡散変換器は現在、高品質なビデオ生成においてこの分野をリードしているが、その遅い反復分解過程と長いシーケンスに対する2次的注意の禁止は、重要な推論ボトルネックを生み出している。
ステップ蒸留とスパースアテンション機構はどちらも独立した加速戦略として有望であるが、これらのアプローチを効果的に組み合わせることで重要な課題が提示される。
これらの制約を克服するために,(1)コンテンツ認識の空間性マスクを動的に生成する適応ブロックスパース・アテンション(ASA)機構,(2)トラジェクティブ・ディストリビューション・マッチング(TDM)上に構築された空間性を考慮した蒸留パラダイムを提案する。
BLADEをCagVideoX-5BやWan2.1-1.3Bといったテキスト・ビデオモデルで検証する。
私たちのフレームワークは、さまざまなスケールで顕著な効率向上を示します。
Wan2.1-1.3Bでは、BLADEは50ステップのベースライン上で14.10倍のエンドツーエンドの推論加速を達成する。
さらに,短いビデオシーケンス長を持つCagVideoX-5Bのようなモデルでは,ロバストな8.89倍の高速化を実現している。
重要な点として、アクセラレーションには一貫した品質改善が伴う。
VBench-2.0ベンチマークでは、BLADEはCagVideoX-5Bのスコアを0.569(0.534から)、Wan2.1-1.3Bのスコアを0.570(0.563から)に引き上げ、その結果は人間の評価において優れた評価によってさらに裏付けられている。
私たちのコードとモデルの重み付けは、http://ziplab.co/BLADE-Homepage/.comで公開されています。
関連論文リスト
- LESA: Learnable Stage-Aware Predictors for Diffusion Model Acceleration [12.183601881545039]
拡散モデルは画像およびビデオ生成タスクにおいて顕著な成功を収めた。
しかし、拡散変換器の高い計算要求は、実際の展開に重大な課題をもたらす。
2段階トレーニングに基づくLESA(LEarnable Stage-Aware)予測フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-24T02:53:28Z) - GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy in Diffusion Transformers [5.2424169748898555]
GalaxyDiTは、ガイダンスアライメントと、再利用メトリクスのための体系的なプロキシ選択を備えた、ビデオ生成を高速化するトレーニング不要の方法である。
我々は、Wan2.1-1.3BとWan2.1-14Bで1.87Times$と2.37times$のスピードアップを達成し、VBench-2.0ベンチマークでは0.97%と0.72%のダウンしか達成できなかった。
提案手法は, ピーク信号-雑音比 (PSNR) において, 5~10dB の先行技術アプローチを上回り, ベースモデルに優れた忠実さを保っている。
論文 参考訳(メタデータ) (2025-12-03T05:08:18Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency [60.74505433956616]
連続時間一貫性モデル(sCM)は理論的に原理化され、学術規模の拡散を加速するために実証的に強力である。
まず並列性互換なFlashAttention-2 JVPカーネルを開発し、100億以上のパラメータと高次元ビデオタスクを持つモデル上でsCMトレーニングを可能にする。
本稿では, スコア蒸留を長軸正則化器として組み込んだスコア規則化連続時間一貫性モデル(rCM)を提案する。
論文 参考訳(メタデータ) (2025-10-09T16:45:30Z) - POSE: Phased One-Step Adversarial Equilibrium for Video Diffusion Models [18.761042377485367]
POSE(Phased One-Step Equilibrium)は、大規模ビデオ拡散モデルのサンプリングステップを削減する蒸留フレームワークである。
PSEはVBench-I2V上の他の加速度法よりもセマンティックアライメント,時間的会議,フレーム品質が平均7.15%向上していることを示す。
論文 参考訳(メタデータ) (2025-08-28T17:20:01Z) - Seedance 1.0: Exploring the Boundaries of Video Generation Models [71.26796999246068]
Seedance 1.0は高性能で推論効率の良いビデオ基盤生成モデルである。
精度と意味のあるビデオキャプションを付加したマルチソースキュレーションデータを統合する。
Seedance 1.0は1080p解像度で5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2025-06-10T17:56:11Z) - Astraea: A GPU-Oriented Token-wise Acceleration Framework for Video Diffusion Transformers [22.349130691342687]
ビデオ拡散変換器 (vDiT) は, テキスト・ビデオ生成において顕著な進歩を遂げているが, その高い計算要求は, 実用的展開において大きな課題を呈している。
本稿では,vDiTをベースとしたビデオ生成において,ほぼ最適設定を検索する自動フレームワークであるASTRAEAを紹介する。
論文 参考訳(メタデータ) (2025-06-05T14:41:38Z) - VORTA: Efficient Video Diffusion via Routing Sparse Attention [54.84294780326206]
VORTAは2つの新しいコンポーネントを持つアクセラレーションフレームワークである。
VBenchの品質を損なうことなく、エンドツーエンドのスピードアップを$1.76タイムで実現している。
モデルキャッシングやステップ蒸留など、他の様々なアクセラレーション手法とシームレスに統合でき、14.41タイムのスピードアップに到達し、性能劣化を無視できる。
論文 参考訳(メタデータ) (2025-05-24T17:46:47Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。