論文の概要: Hardware-Friendly Static Quantization Method for Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2502.15077v1
- Date: Thu, 20 Feb 2025 22:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:53.641861
- Title: Hardware-Friendly Static Quantization Method for Video Diffusion Transformers
- Title(参考訳): ビデオ拡散変換器のハードウェアフレンドリな静的量子化法
- Authors: Sanghyun Yi, Qingfeng Liu, Mostafa El-Khamy,
- Abstract要約: ビデオ生成用拡散変換器は,SORAの高性能化以来,大きな研究関心を集めている。
リソース制約のあるデバイスは動的量子化をサポートできず、AIプロセッサへの効率的なデプロイにはモデルの静的量子化が必要である。
本稿では,動的量子化技術に頼ることなく,ビデオ拡散変換器OpenSoraciteopensoraの学習後量子化手法を提案する。
- 参考スコア(独自算出の注目度): 9.85647483002237
- License:
- Abstract: Diffusion Transformers for video generation have gained significant research interest since the impressive performance of SORA. Efficient deployment of such generative-AI models on GPUs has been demonstrated with dynamic quantization. However, resource-constrained devices cannot support dynamic quantization, and need static quantization of the models for their efficient deployment on AI processors. In this paper, we propose a novel method for the post-training quantization of OpenSora\cite{opensora}, a Video Diffusion Transformer, without relying on dynamic quantization techniques. Our approach employs static quantization, achieving video quality comparable to FP16 and dynamically quantized ViDiT-Q methods, as measured by CLIP, and VQA metrics. In particular, we utilize per-step calibration data to adequately provide a post-training statically quantized model for each time step, incorporating channel-wise quantization for weights and tensor-wise quantization for activations. By further applying the smooth-quantization technique, we can obtain high-quality video outputs with the statically quantized models. Extensive experimental results demonstrate that static quantization can be a viable alternative to dynamic quantization for video diffusion transformers, offering a more efficient approach without sacrificing performance.
- Abstract(参考訳): ビデオ生成用拡散変換器は,SORAの高性能化以来,大きな研究関心を集めている。
このような生成AIモデルのGPUへの効率的な展開は、動的量子化によって実証されている。
しかし、リソース制約のあるデバイスは動的量子化をサポートできず、AIプロセッサへの効率的なデプロイにはモデルの静的量子化が必要である。
本稿では,動的量子化技術に頼ることなく,ビデオ拡散変換器であるOpenSora\cite{opensora}の学習後量子化手法を提案する。
提案手法では,FP16に匹敵するビデオ品質と,CLIPおよびVQA測定値で測定された動的定量化ViDiT-Q手法を用いて,静的量子化を行う。
特に、ステップごとのキャリブレーションデータを用いて、各時間ステップ毎にトレーニング後の静的量子化モデルを適切に提供し、ウェイトに対するチャネルワイド量子化とアクティベーションのためのテンソルワイド量子化を取り入れた。
さらにスムーズな量子化手法を適用することで、静的な量子化モデルを用いて高品質な映像出力を得ることができる。
ビデオ拡散変換器の動的量子化の代替として静的量子化が有効であることを示し、性能を犠牲にすることなくより効率的なアプローチを提供する。
関連論文リスト
- WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - A Study of Quantisation-aware Training on Time Series Transformer Models
for Resource-constrained FPGAs [19.835810073852244]
本研究では,時系列トランスフォーマーモデルにおける量子化対応トレーニング(QAT)について検討する。
そこで本研究では,QAT相における対称スキームと非対称スキームを動的に選択する適応量子化手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T08:25:03Z) - Temporal Dynamic Quantization for Diffusion Models [18.184163233551292]
本稿では,時間ステップ情報に基づいて量子化間隔を動的に調整する新しい量子化手法を提案する。
従来の動的量子化手法とは異なり、本手法は推論時に計算オーバーヘッドを伴わない。
実験により,様々なデータセットにまたがる量子拡散モデルにより,出力品質が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-06-04T09:49:43Z) - Towards Accurate Post-training Quantization for Diffusion Models [73.19871905102545]
本稿では,効率的な画像生成のための拡散モデル(ADP-DM)の高精度なデータフリーポストトレーニング量子化フレームワークを提案する。
提案手法は, 拡散モデルの学習後の量子化を, 同様の計算コストで, 非常に大きなマージンで高速化する。
論文 参考訳(メタデータ) (2023-05-30T04:00:35Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - SPIQ: Data-Free Per-Channel Static Input Quantization [37.82255888371488]
効率的な推論手法は、機械学習コミュニティで注目を集めている。
本研究では,静的な入力量子化が,チャネルごとの入力量子化方式によって動的手法の精度レベルに達することを論じる。
提案手法はSPIQと呼ばれ、静的な推論速度で動的アプローチに匹敵する精度を実現する。
論文 参考訳(メタデータ) (2022-03-28T10:59:18Z) - Nonuniform-to-Uniform Quantization: Towards Accurate Quantization via
Generalized Straight-Through Estimation [48.838691414561694]
非一様量子化(英: Nonuniform-to-Uniform Quantization、N2UQ)は、ハードウェアフレンドリーで効率的な非一様法の強力な表現能力を維持できる方法である。
N2UQはImageNet上で最先端の非一様量子化法を0.71.8%上回る。
論文 参考訳(メタデータ) (2021-11-29T18:59:55Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - In-Hindsight Quantization Range Estimation for Quantized Training [5.65658124285176]
従来の反復で推定した量子化範囲を用いて,現在を数値化する動的量子化手法であるin-hindsight range推定法を提案する。
今回のアプローチでは,ニューラルネットワークアクセラレータによる最小限のハードウェアサポートのみを必要としながら,勾配とアクティベーションの高速静的量子化を可能にする。
量子化範囲の推定のためのドロップイン代替として意図されており、他の量子化トレーニングの進歩と併用することができる。
論文 参考訳(メタデータ) (2021-05-10T10:25:28Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。