論文の概要: S$^2$Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation
- arxiv url: http://arxiv.org/abs/2508.04016v2
- Date: Thu, 07 Aug 2025 13:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 14:01:14.0292
- Title: S$^2$Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation
- Title(参考訳): S$^2$Q-VDiT: 完全データとスパーストケン蒸留による正確な量子化ビデオ拡散変換器
- Authors: Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu,
- Abstract要約: ビデオ拡散モデル(V-DM)の学習後量子化フレームワークであるS$2$Q-VDiTを提案する。
W4A6量子化の下では、S$2$Q-VDiTは3.9倍のモデル圧縮と1.3倍の推論加速を実現している。
- 参考スコア(独自算出の注目度): 32.895381997778586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion transformers have emerged as the mainstream paradigm for video generation models. However, the use of up to billions of parameters incurs significant computational costs. Quantization offers a promising solution by reducing memory usage and accelerating inference. Nonetheless, we observe that the joint modeling of spatial and temporal information in video diffusion models (V-DMs) leads to extremely long token sequences, which introduces high calibration variance and learning challenges. To address these issues, we propose S$^2$Q-VDiT, a post-training quantization framework for V-DMs that leverages Salient data and Sparse token distillation. During the calibration phase, we identify that quantization performance is highly sensitive to the choice of calibration data. To mitigate this, we introduce \textit{Hessian-aware Salient Data Selection}, which constructs high-quality calibration datasets by considering both diffusion and quantization characteristics unique to V-DMs. To tackle the learning challenges, we further analyze the sparse attention patterns inherent in V-DMs. Based on this observation, we propose \textit{Attention-guided Sparse Token Distillation}, which exploits token-wise attention distributions to emphasize tokens that are more influential to the model's output. Under W4A6 quantization, S$^2$Q-VDiT achieves lossless performance while delivering $3.9\times$ model compression and $1.3\times$ inference acceleration. Code will be available at https://github.com/wlfeng0509/s2q-vdit.
- Abstract(参考訳): 拡散変換器はビデオ生成モデルの主流パラダイムとして登場してきた。
しかし、最大10億のパラメータを使用すると、かなりの計算コストが発生する。
量子化は、メモリ使用量の削減と推論の高速化によって、有望なソリューションを提供する。
それでも、ビデオ拡散モデル(V-DM)における空間情報と時間情報の連成モデリングは、非常に長いトークンシーケンスをもたらし、高いキャリブレーション分散と学習課題をもたらす。
これらの問題に対処するために、Salientデータとスパーストークン蒸留を利用したV-DMのトレーニング後量子化フレームワークであるS$^2$Q-VDiTを提案する。
校正段階では、量子化性能は校正データの選択に非常に敏感である。
そこで本研究では,V-DMに特有の拡散特性と量子化特性を両立させて,高品質なキャリブレーションデータセットを構築するための,textit{Hessian-aware Salient Data Selection}を提案する。
学習課題に対処するために、V-DMに固有の疎い注意パターンを更に分析する。
そこで,本研究では,トークン単位の注意分布を利用して,モデル出力に影響を及ぼすトークンを強調する「textit{Attention-guided Sparse Token Distillation}」を提案する。
W4A6量子化の下では、S$^2$Q-VDiTは3.9\times$モデル圧縮と1.3\times$推論加速を実現している。
コードはhttps://github.com/wlfeng0509/s2q-vdit.comから入手できる。
関連論文リスト
- MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape [23.01286982392074]
大きなボトルネックは、複雑性が解像度とビデオ長で2倍にスケールする注意機構である。
既存の技術は、非常に高い空間レベルにおける視覚的品質の維持に失敗し、無視できない計算オーバーヘッドを発生させる可能性がある。
本稿では,視覚生成モデルに非常に注意を払わせるRe-ttentionを提案する。
論文 参考訳(メタデータ) (2025-05-28T22:39:12Z) - Q-VDiT: Towards Accurate Quantization and Distillation of Video-Generation Diffusion Transformers [31.95947876513405]
本稿では,ビデオDiTモデルに特化して設計された量子化フレームワークQDi-VTを提案する。
量子化の観点から,トークンおよび特徴次元の量子化誤差を補償するToken-Aware Quantization Estor (TQE)を提案する。
我々のW3A6 QDi-VTは23.40のシーン一貫性を実現し、新しいベンチマークを設定し、1.9$times$で最先端の量子化手法より優れている。
論文 参考訳(メタデータ) (2025-05-28T09:33:52Z) - DVD-Quant: Data-free Video Diffusion Transformers Quantization [98.43940510241768]
Diffusion Transformers (DiT) はビデオ生成の最先端アーキテクチャとして登場したが、その計算とメモリの要求は実際の展開を妨げている。
ビデオDiTのための新しいデータフリー量子化フレームワークであるDVD-Quantを提案する。
提案手法は,データフリーな量子化誤差低減のための,プログレッシブバウンド量子化(PBQ)と自動スケーリング回転量子化(ARQ)の3つの重要なイノベーションを統合する。
論文 参考訳(メタデータ) (2025-05-24T11:56:02Z) - TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [37.061975191553]
本稿では,拡散モデルのための混合精度量子化法MPQ-DMを提案する。
重み付き外周波による量子化誤差を軽減するために,外周波混合量子化手法を提案する。
時間ステップを横断する表現を頑健に学習するために,時間-平滑な関係蒸留方式を構築した。
論文 参考訳(メタデータ) (2024-12-16T08:31:55Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Scalable Transformer for High Dimensional Multivariate Time Series Forecasting [10.17270031004674]
本研究では,高次元MSSデータ上でのチャネル依存モデルの最適性能の背景について検討する。
本稿では,高次元時系列予測のためのスケーラブル変換器STHDを提案する。
実験により、STHDは3つの高次元データセット(クリミア・シカゴ、ウィキ・ピープル、トラヒック)をかなり改善した。
論文 参考訳(メタデータ) (2024-08-08T06:17:13Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。
我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文 参考訳(メタデータ) (2023-11-10T09:10:09Z) - Variational Diffusion Auto-encoder: Latent Space Extraction from
Pre-trained Diffusion Models [0.0]
可変オートエンコーダ(VAE)は、生成された画像の品質の問題に直面し、しばしば目立った曖昧さを示す。
この問題は、条件付きデータ分布を近似する非現実的な仮定である $p(textbfx | textbfz)$ が等方ガウス的であることに由来する。
本稿では,エンコーダを最適化することにより,既存の拡散モデルから潜在空間を抽出し,限界データのログ化を最大化する方法について述べる。
論文 参考訳(メタデータ) (2023-04-24T14:44:47Z) - On the Difference Between the Information Bottleneck and the Deep
Information Bottleneck [81.89141311906552]
本稿では,Deep Variational Information Bottleneckとその導出に必要な仮定について再考する。
後者のマルコフ連鎖のみを満たすべき$I(T;Y)$に対して下界を最適化することで、この制限を回避する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。