論文の概要: 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2603.18742v1
- Date: Thu, 19 Mar 2026 10:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.095238
- Title: 6Bit-Diffusion: Inference-Time Mixed-Precision Quantization for Video Diffusion Models
- Title(参考訳): 6bit拡散:ビデオ拡散モデルのための推論時間混合精度量子化
- Authors: Rundong Su, Jintao Zhang, Zhihang Yuan, Haojie Duanmu, Jianfei Chen, Jun Zhu,
- Abstract要約: 拡散変換器はビデオの生成において顕著な能力を示した。
しかし、それらの実践的な展開は、高いメモリ使用量と計算コストに制約されている。
トレーニング後の量子化は、メモリ使用量を減らし、速度を向上する実用的な方法を提供する。
- 参考スコア(独自算出の注目度): 32.45415555978057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion transformers have demonstrated remarkable capabilities in generating videos. However, their practical deployment is severely constrained by high memory usage and computational cost. Post-Training Quantization provides a practical way to reduce memory usage and boost computation speed. Existing quantization methods typically apply a static bit-width allocation, overlooking the quantization difficulty of activations across diffusion timesteps, leading to a suboptimal trade-off between efficiency and quality. In this paper, we propose a inference time NVFP4/INT8 Mixed-Precision Quantization framework. We find a strong linear correlation between a block's input-output difference and the quantization sensitivity of its internal linear layers. Based on this insight, we design a lightweight predictor that dynamically allocates NVFP4 to temporally stable layers to maximize memory compression, while selectively preserving INT8 for volatile layers to ensure robustness. This adaptive precision strategy enables aggressive quantization without compromising generation quality. Beside this, we observe that the residual between the input and output of a Transformer block exhibits high temporal consistency across timesteps. Leveraging this temporal redundancy, we introduce Temporal Delta Cache (TDC) to skip computations for these invariant blocks, further reducing the computational cost. Extensive experiments demonstrate that our method achieves 1.92$\times$ end-to-end acceleration and 3.32$\times$ memory reduction, setting a new baseline for efficient inference in Video DiTs.
- Abstract(参考訳): 拡散変換器はビデオの生成において顕著な能力を示した。
しかし、それらの実践的な展開は、高いメモリ使用量と計算コストによって厳しく制約されている。
トレーニング後の量子化は、メモリ使用量を減らし、計算速度を向上する実用的な方法を提供する。
既存の量子化法は通常静的なビット幅の割り当てを適用し、拡散時間ステップ間でのアクティベーションの量子化の難しさを見極め、効率と品質の間の準最適トレードオフをもたらす。
本稿では,推定時間NVFP4/INT8混合精度量子化フレームワークを提案する。
ブロックの入出力差と内部線形層の量子化感度との間には強い線形相関関係が認められた。
この知見に基づいて,NVFP4を時間的に安定な層に動的に割り当ててメモリ圧縮を最大化する軽量な予測器を設計し,揮発性層に対してINT8を選択的に保存してロバスト性を確保する。
この適応的精度戦略は、生成品質を損なうことなく、積極的な量子化を可能にする。
これとは別に、Transformerブロックの入力と出力の間の残差は、時間経過間で高い時間的一貫性を示す。
この時間的冗長性を活用して、時間的デルタキャッシュ(TDC)を導入し、これらの不変ブロックの計算をスキップし、計算コストをさらに削減する。
広汎な実験により,ビデオDiTの効率的な推論のための新たなベースラインを設定することにより,エンド・ツー・エンド・アクセラレーション 1.92$\times$と3.32$\times$メモリ削減を実現した。
関連論文リスト
- ProCache: Constraint-Aware Feature Caching with Selective Computation for Diffusion Transformer Acceleration [14.306565517230775]
Diffusion Transformer (DiTs) は、生成モデリングにおいて最先端のパフォーマンスを達成したが、その高い計算コストは、リアルタイムデプロイメントを妨げている。
既存の手法では,(1) 均一なキャッシング間隔がDiTの非一様時間ダイナミクスと一致しないこと,(2) 過大なキャッシング間隔によるナイーブな機能再利用が重大なエラーの蓄積につながること,の2つの重要な制限が課されている。
ProCacheはトレーニング不要な動的機能キャッシュフレームワークで、2つのコアコンポーネントを介してこれらの問題に対処する。
論文 参考訳(メタデータ) (2025-12-19T07:27:19Z) - QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification [67.15451442018258]
拡散変換器は素晴らしいビデオ生成能力を示すが、その計算とメモリの禁止コストは実際の展開を妨げる。
モデル量子化とアテンションスパシフィケーションは圧縮に有望な2つの方向であるが、それぞれがアグレッシブ圧縮の下で深刻な性能劣化を被っている。
モデル量子化と注意散布を統合した統合フレームワークである textbfQuantSparse を提案する。
論文 参考訳(メタデータ) (2025-09-28T06:49:44Z) - SpeCa: Accelerating Diffusion Transformers with Speculative Feature Caching [17.724549528455317]
拡散モデルは高忠実度画像とビデオ合成に革命をもたらしたが、リアルタイムアプリケーションでは計算要求は禁じられている。
本稿では,両制約を効果的に対処する新しい「予測検証」アクセラレーションフレームワークであるSpeCaを提案する。
提案手法では,予測信頼性を効率よく評価するパラメータフリー検証機構を実装し,各予測に対するリアルタイム決定の受け入れや拒否を可能にする。
論文 参考訳(メタデータ) (2025-09-15T06:46:22Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [19.900719882624028]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Accurate Block Quantization in LLMs with Outliers [0.6138671548064355]
極大規模LLMの推理需要はここ数カ月で大きく伸びている。
この問題は処理中のシーケンスの長さが爆発的に増加することで増大する。
重みとアクティベーションの両方の正確な量子化を可能にする様々な量子化技術が提案されている。
論文 参考訳(メタデータ) (2024-03-29T12:15:06Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。
我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。
本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。