論文の概要: TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times
- arxiv url: http://arxiv.org/abs/2512.16093v1
- Date: Thu, 18 Dec 2025 02:21:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.883576
- Title: TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times
- Title(参考訳): ターボ拡散:100~200倍の加速ビデオ拡散モデル
- Authors: Jintao Zhang, Kaiwen Zheng, Kai Jiang, Haoxu Wang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu,
- Abstract要約: 本稿では,ビデオ生成アクセラレーションフレームワークであるTurboDiffusionを紹介する。
ビデオ品質を維持しながら、エンドツーエンドの拡散生成を100~200倍高速化することができる。
We conduct experiment on the Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P, and Wan2.1-T2V-14B-480P。
- 参考スコア(独自算出の注目度): 87.49879757836085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce TurboDiffusion, a video generation acceleration framework that can speed up end-to-end diffusion generation by 100-200x while maintaining video quality. TurboDiffusion mainly relies on several components for acceleration: (1) Attention acceleration: TurboDiffusion uses low-bit SageAttention and trainable Sparse-Linear Attention (SLA) to speed up attention computation. (2) Step distillation: TurboDiffusion adopts rCM for efficient step distillation. (3) W8A8 quantization: TurboDiffusion quantizes model parameters and activations to 8 bits to accelerate linear layers and compress the model. In addition, TurboDiffusion incorporates several other engineering optimizations. We conduct experiments on the Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P, and Wan2.1-T2V-14B-480P models. Experimental results show that TurboDiffusion achieves 100-200x speedup for video generation even on a single RTX 5090 GPU, while maintaining comparable video quality. The GitHub repository, which includes model checkpoints and easy-to-use code, is available at https://github.com/thu-ml/TurboDiffusion.
- Abstract(参考訳): 本稿では,ビデオ品質を維持しつつ,エンドツーエンドの拡散生成を100~200倍高速化するビデオ生成高速化フレームワークであるTurboDiffusionを紹介する。
ターボ拡散(TurboDiffusion)は、主に加速度のいくつかのコンポーネントに依存している: 1) 注意加速度: ターボ拡散は低ビットのSageAttentionと訓練可能なスパース線形注意(SLA)を用いて注意計算を高速化する。
2) ステップ蒸留: ターボ拡散は効率的なステップ蒸留にrCMを採用する。
(3)W8A8量子化:TurboDiffusionはモデルパラメータとアクティベーションを8ビットに量子化し、線形層を加速しモデルを圧縮する。
さらに、TurboDiffusionにはいくつかのエンジニアリング最適化が含まれている。
We conduct experiment on the Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P, and Wan2.1-T2V-14B-480P。
実験結果から,TurboDiffusionは1つのRTX 5090 GPU上でも100-200倍の高速化を実現し,ビデオ品質は同等であることがわかった。
モデルチェックポイントと使いやすいコードを含むGitHubリポジトリは、https://github.com/thu-ml/TurboDiffusion.comで公開されている。
関連論文リスト
- GalaxyDiT: Efficient Video Generation with Guidance Alignment and Adaptive Proxy in Diffusion Transformers [5.2424169748898555]
GalaxyDiTは、ガイダンスアライメントと、再利用メトリクスのための体系的なプロキシ選択を備えた、ビデオ生成を高速化するトレーニング不要の方法である。
我々は、Wan2.1-1.3BとWan2.1-14Bで1.87Times$と2.37times$のスピードアップを達成し、VBench-2.0ベンチマークでは0.97%と0.72%のダウンしか達成できなかった。
提案手法は, ピーク信号-雑音比 (PSNR) において, 5~10dB の先行技術アプローチを上回り, ベースモデルに優れた忠実さを保っている。
論文 参考訳(メタデータ) (2025-12-03T05:08:18Z) - SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer [116.17385614259574]
SANA-Videoは、720×1280の解像度と分長のビデオを効率よく生成できる小さな拡散モデルである。
2つのコア設計により、効率的な、効果的で、長いビデオ生成が保証されます。
コストの安いSANA-Videoは、現代の最先端の小さな拡散モデルと比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2025-09-29T12:28:09Z) - BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation [27.57431718095974]
本稿では,ビデオ推論のためのデータフリー共同学習フレームワークBLADEを紹介する。
異なるスケールで顕著な効率向上を示す。
短いビデオシーケンス長を持つCagVideoX-5Bのようなモデルでは、我々のフレームワークはロバストな8.89倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2025-08-14T15:58:59Z) - CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。
本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。
ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-21T05:48:47Z) - Astraea: A Token-wise Acceleration Framework for Video Diffusion Transformers [29.130090574300635]
ビデオ拡散変換器(vDiTs)は、テキストからビデオへの生成において大きな進歩を遂げているが、その計算要求は、実用的な展開において大きな課題となっている。
Astraeaは,vDiTをベースとしたビデオ生成の最適に近い構成を,パフォーマンス目標下で検索するフレームワークである。
論文 参考訳(メタデータ) (2025-06-05T14:41:38Z) - Sparse-vDiT: Unleashing the Power of Sparse Attention to Accelerate Video Diffusion Transformers [24.105473321347894]
本稿では,ビデオ拡散変換器(vDiT)の空間加速度フレームワークであるSparse-vDiTを提案する。
Sparse-vDiT が 2.09$times$, 2.38$times$, 1.67$times$理論 FLOP 還元, 1.76$times$, 1.85$times$, 1.58$times$ をそれぞれ達成していることを示す。
我々の研究は、vDiTsの潜伏構造空間を長期ビデオ合成に体系的に活用できることを実証した。
論文 参考訳(メタデータ) (2025-06-03T16:42:37Z) - VORTA: Efficient Video Diffusion via Routing Sparse Attention [54.84294780326206]
VORTAは2つの新しいコンポーネントを持つアクセラレーションフレームワークである。
VBenchの品質を損なうことなく、エンドツーエンドのスピードアップを$1.76タイムで実現している。
モデルキャッシングやステップ蒸留など、他の様々なアクセラレーション手法とシームレスに統合でき、14.41タイムのスピードアップに到達し、性能劣化を無視できる。
論文 参考訳(メタデータ) (2025-05-24T17:46:47Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [48.35054927704544]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。