論文の概要: Q-ARVD: Quantizing Autoregressive Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.21072v1
- Date: Wed, 20 May 2026 11:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.654871
- Title: Q-ARVD: Quantizing Autoregressive Video Diffusion Models
- Title(参考訳): Q-ARVD:自己回帰型ビデオ拡散モデルの定量化
- Authors: Siao Tang, Xinyin Ma, Gongfan Fang, Xingyi Yang, Xinchao Wang,
- Abstract要約: 自動回帰ビデオ拡散モデル(ARVD)は、ストリーミングビデオ生成のための有望なアーキテクチャとして登場した。
しかし、AVVDのかなりの推論コストは、実際的な展開の大きな障害であり続けている。
正確なAVVD量子化のための新しいフレームワークであるQ-ARVDを提案する。
- 参考スコア(独自算出の注目度): 98.30793646153926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive video diffusion models (ARVDs) have emerged as a promising architecture for streaming video generation, paving the way for real-time interactive video generation and world modeling. Despite their potential, the substantial inference cost of ARVDs remains a major obstacle to practical deployment, making model quantization a natural direction for improving efficiency. However, quantization for ARVDs remains largely unexplored. Our empirical analysis shows that directly applying existing quantization schemes developed for standard diffusion transformers to ARVDs leads to suboptimal performance, revealing quantization behaviors that differ from those observed in bidirectional diffusion models. In this paper, we identify two critical challenges in quantizing ARVDs: (C1) Highly unbalanced frame-wise quantization sensitivity. Error accumulation during autoregressive generation can induce severely skewed quantization sensitivity across frames, following an exponential-like decay pattern. (C2) Prominent and heterogeneous outlier patterns in weights. Weight distributions exhibit pronounced outlier channels, whose patterns vary substantially across layer types and block depths. To address these issues, we propose Q-ARVD, a novel framework for accurate ARVD quantization. (S1) To tackle the highly unbalanced frame-wise sensitivity, Q-ARVD incorporates a final-quality aware frame-weighting mechanism into the quantization objective. (S2) To prevent heterogeneous outliers from degrading performance, Q-ARVD introduces an outlier-aware adaptive dual-scale quantization, which automatically detects the presence and quantity of outlier channels for an arbitrary layer, and isolates them to protect normal channels. Extensive experiments demonstrate the superiority of Q-ARVD.
- Abstract(参考訳): 自動回帰ビデオ拡散モデル(ARVD)は、リアルタイムインタラクティブビデオ生成と世界モデリングの道を開いたストリーミングビデオ生成のための有望なアーキテクチャとして登場した。
これらの可能性にもかかわらず、AVVDのかなりの推論コストは、実用的展開の大きな障害であり、モデルの量子化は効率を改善するための自然な方向である。
しかし、AVVDの量子化はほとんど未解明のままである。
実験により,標準拡散変換器で開発された量子化スキームをAVVDに直接適用することで,双方向拡散モデルと異なる量子化挙動を示す。
本稿では,ARVDの量子化における2つの重要な課題について述べる。
自己回帰生成中の誤差蓄積は指数関数的な崩壊パターンに従い、フレーム間で大きな歪んだ量子化感度を誘導する。
(C2)
重みの顕著で異質な外乱パターン。
重量分布は明らかに外層チャネルを示し、そのパターンは層の種類やブロック深さによって大きく異なる。
これらの問題に対処するため、我々は正確なAVVD量子化のための新しいフレームワークであるQ-ARVDを提案する。
(S1)
Q-ARVDは、フレーム単位の高バランスな感度に対処するため、量子化の目的に最終品質のフレーム重み付け機構を組み込む。
(S2)
不均一な外れ値の劣化を防止するため、Q-ARVDは、任意の層に対する外れ値チャネルの存在と量を自動的に検出し、正常なチャネルを保護するために分離する、外れ値対応の適応型デュアルスケール量子化を導入する。
大規模な実験はQ-ARVDの優位性を示す。
関連論文リスト
- LSGQuant: Layer-Sensitivity Guided Quantization for One-Step Diffusion Real-World Video Super-Resolution [52.627063566555194]
本稿では,一段階拡散に基づく実世界VSRのための層感度誘導量子化手法LSGQuantを紹介する。
本手法は,ビデオトークンのアクティベーションに適合する動的レンジ適応量子化器 (DRAQ) を備える。
提案手法は,完全精度のオリジンモデルに対してほぼ性能が良く,既存の量子化手法をはるかに上回っている。
論文 参考訳(メタデータ) (2026-02-03T06:53:19Z) - Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency [60.74505433956616]
連続時間一貫性モデル(sCM)は理論的に原理化され、学術規模の拡散を加速するために実証的に強力である。
まず並列性互換なFlashAttention-2 JVPカーネルを開発し、100億以上のパラメータと高次元ビデオタスクを持つモデル上でsCMトレーニングを可能にする。
本稿では, スコア蒸留を長軸正則化器として組み込んだスコア規則化連続時間一貫性モデル(rCM)を提案する。
論文 参考訳(メタデータ) (2025-10-09T16:45:30Z) - S$^2$Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation [55.35880044416441]
ビデオ拡散モデル(V-DM)の学習後量子化フレームワークであるS$2$Q-VDiTを提案する。
W4A6量子化の下では、S$2$Q-VDiTは3.9倍のモデル圧縮と1.3倍の推論加速を実現している。
論文 参考訳(メタデータ) (2025-08-06T02:12:29Z) - LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation [41.66473889057111]
Diffusion Transformer (DiTs) は、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において、優れたパフォーマンスを実現している。
DiTsの高計算コストと大きなパラメータサイズは、リソース制約のあるシナリオでの利用に重大な課題をもたらす。
本稿では,映像・映像生成のための学習後量子化フレームワークLRQ-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:16:11Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - QVD: Post-training Quantization for Video Diffusion Models [33.13078954859106]
ポストトレーニング量子化(PTQ)は、メモリフットプリントの削減と計算効率の向上に有効な手法である。
本稿では,QVDと呼ばれるビデオ拡散モデルに適した最初のPTQ戦略を紹介する。
我々は、W8A8のほぼロスレス性能劣化を達成し、FVDの205.12倍の性能向上を実現した。
論文 参考訳(メタデータ) (2024-07-16T10:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。