論文の概要: QVD: Post-training Quantization for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2407.11585v1
- Date: Tue, 16 Jul 2024 10:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 15:32:51.986864
- Title: QVD: Post-training Quantization for Video Diffusion Models
- Title(参考訳): QVD:ビデオ拡散モデルのための後学習量子化
- Authors: Shilong Tian, Hong Chen, Chengtao Lv, Yu Liu, Jinyang Guo, Xianglong Liu, Shengxi Li, Hao Yang, Tao Xie,
- Abstract要約: ポストトレーニング量子化(PTQ)は、メモリフットプリントの削減と計算効率の向上に有効な手法である。
本稿では,QVDと呼ばれるビデオ拡散モデルに適した最初のPTQ戦略を紹介する。
我々は、W8A8のほぼロスレス性能劣化を達成し、FVDの205.12倍の性能向上を実現した。
- 参考スコア(独自算出の注目度): 33.13078954859106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, video diffusion models (VDMs) have garnered significant attention due to their notable advancements in generating coherent and realistic video content. However, processing multiple frame features concurrently, coupled with the considerable model size, results in high latency and extensive memory consumption, hindering their broader application. Post-training quantization (PTQ) is an effective technique to reduce memory footprint and improve computational efficiency. Unlike image diffusion, we observe that the temporal features, which are integrated into all frame features, exhibit pronounced skewness. Furthermore, we investigate significant inter-channel disparities and asymmetries in the activation of video diffusion models, resulting in low coverage of quantization levels by individual channels and increasing the challenge of quantization. To address these issues, we introduce the first PTQ strategy tailored for video diffusion models, dubbed QVD. Specifically, we propose the High Temporal Discriminability Quantization (HTDQ) method, designed for temporal features, which retains the high discriminability of quantized features, providing precise temporal guidance for all video frames. In addition, we present the Scattered Channel Range Integration (SCRI) method which aims to improve the coverage of quantization levels across individual channels. Experimental validations across various models, datasets, and bit-width settings demonstrate the effectiveness of our QVD in terms of diverse metrics. In particular, we achieve near-lossless performance degradation on W8A8, outperforming the current methods by 205.12 in FVD.
- Abstract(参考訳): 近年,映像拡散モデル (VDM) が注目されている。
しかし、複数のフレームを並列に処理し、相当なモデルサイズと組み合わせることで、高いレイテンシと広範なメモリ消費が発生し、より広範なアプリケーションを妨げる。
ポストトレーニング量子化(PTQ)は、メモリフットプリントの削減と計算効率の向上に有効な手法である。
画像拡散とは異なり、時間的特徴は全てのフレーム特徴に統合され、顕著な歪みを示す。
さらに,ビデオ拡散モデルのアクティベーションにおけるチャネル間の相違や非対称性について検討し,個々のチャンネルによる量子化レベルの範囲が低くなり,量子化の課題が増大することを示した。
これらの問題に対処するために、QVDと呼ばれるビデオ拡散モデルに適した最初のPTQ戦略を導入する。
具体的には,時間的特徴に対する高時間的識別可能性量子化法(HTDQ)を提案する。
さらに,各チャネルにおける量子化レベルのカバレッジ向上を目的としたScattered Channel Range Integration (SCRI)法を提案する。
様々なモデル、データセット、ビット幅設定の実験的検証は、様々なメトリクスの観点から、私たちのQVDの有効性を示しています。
特にW8A8では,FVDの205.12倍の性能向上を実現している。
関連論文リスト
- Solving Video Inverse Problems Using Image Diffusion Models [58.464465016269614]
本稿では,画像拡散モデルのみを活用する革新的なビデオ逆解法を提案する。
本手法は,映像の時間次元をバッチ次元画像拡散モデルとして扱う。
また、バッチ間の一貫性を促進するバッチ一貫性サンプリング戦略も導入しています。
論文 参考訳(メタデータ) (2024-09-04T09:48:27Z) - FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。
この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。
提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文 参考訳(メタデータ) (2024-03-19T17:59:18Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - ResQ: Residual Quantization for Video Perception [18.491197847596283]
本稿では,Residual Quantization(Residual Quantization)と呼ばれるビデオネットワークのための新しい量子化手法を提案する。
ビデオの変化量に比例してビット幅を動的に調整するために、我々のモデルを拡張します。
論文 参考訳(メタデータ) (2023-08-18T12:41:10Z) - Temporal Dynamic Quantization for Diffusion Models [18.184163233551292]
本稿では,時間ステップ情報に基づいて量子化間隔を動的に調整する新しい量子化手法を提案する。
従来の動的量子化手法とは異なり、本手法は推論時に計算オーバーヘッドを伴わない。
実験により,様々なデータセットにまたがる量子拡散モデルにより,出力品質が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-06-04T09:49:43Z) - Video Probabilistic Diffusion Models in Projected Latent Space [75.4253202574722]
我々は、PVDM(Latent Video diffusion model)と呼ばれる新しいビデオ生成モデルを提案する。
PVDMは低次元の潜伏空間で映像配信を学習し、限られた資源で高解像度映像を効率的に訓練することができる。
論文 参考訳(メタデータ) (2023-02-15T14:22:34Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。