Fugu-MT 論文翻訳(概要): ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation

論文の概要: ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation

arxiv url: http://arxiv.org/abs/2406.02540v1
Date: Tue, 4 Jun 2024 17:57:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 14:50:37.025981
Title: ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation
Title（参考訳）: ViDiT-Q:画像・映像生成のための拡散変換器の効率的かつ高精度な量子化
Authors: Tianchen Zhao, Tongcheng Fang, Enshu Liu, Wan Rui, Widyadewi Soedarmadji, Shiyao Li, Zinan Lin, Guohao Dai, Shengen Yan, Huazhong Yang, Xuefei Ning, Yu Wang,
Abstract要約: ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。既存の拡散量子化手法をU-Netに適用することは品質維持の課題に直面している。我々は、新しい距離分離型混合精度量子化法(ViDiT-Q-MP)により、ViDiT-Qを改善する。
参考スコア（独自算出の注目度）: 21.99148402889014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion transformers (DiTs) have exhibited remarkable performance in visual generation tasks, such as generating realistic images or videos based on textual instructions. However, larger model sizes and multi-frame processing for video generation lead to increased computational and memory costs, posing challenges for practical deployment on edge devices. Post-Training Quantization (PTQ) is an effective method for reducing memory costs and computational complexity. When quantizing diffusion transformers, we find that applying existing diffusion quantization methods designed for U-Net faces challenges in preserving quality. After analyzing the major challenges for quantizing diffusion transformers, we design an improved quantization scheme: "ViDiT-Q": Video and Image Diffusion Transformer Quantization) to address these issues. Furthermore, we identify highly sensitive layers and timesteps hinder quantization for lower bit-widths. To tackle this, we improve ViDiT-Q with a novel metric-decoupled mixed-precision quantization method (ViDiT-Q-MP). We validate the effectiveness of ViDiT-Q across a variety of text-to-image and video models. While baseline quantization methods fail at W8A8 and produce unreadable content at W4A8, ViDiT-Q achieves lossless W8A8 quantization. ViDiTQ-MP achieves W4A8 with negligible visual quality degradation, resulting in a 2.5x memory optimization and a 1.5x latency speedup.
Abstract（参考訳）: 拡散変換器(DiT)は、テキスト命令に基づいて現実的な画像やビデオを生成するなど、視覚生成タスクにおいて顕著な性能を示した。しかし、より大きなモデルサイズとビデオ生成のためのマルチフレーム処理により、計算コストとメモリコストが増大し、エッジデバイスに実用的なデプロイを行う上での課題が浮かび上がった。ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。拡散変圧器の量子化では,U-Net用に設計された既存の拡散量子化手法が品質維持の課題に直面していることがわかった。拡散変換器の量子化に関する主要な課題を分析した後、これらの問題に対処するために改良された量子化スキーム"ViDiT-Q": Video and Image Diffusion Transformer Quantization"を設計する。さらに、低ビット幅の量子化を妨げる高感度層と時間ステップを同定する。そこで我々は,新しい距離分離型混合精度量子化法(ViDiT-Q-MP)により,ViDiT-Qを改善する。様々なテキスト・ツー・イメージ・ビデオ・モデルにおけるViDiT-Qの有効性を検証する。ベースライン量子化法はW8A8で失敗し、W4A8で読めないコンテンツを生成するが、ViDiT-Qは損失のないW8A8量子化を実現する。 ViDiTQ-MPは、視覚的品質の劣化を無視してW4A8を実現し、2.5倍のメモリ最適化と1.5倍のレイテンシ高速化を実現している。

関連論文リスト

Q-VDiT: Towards Accurate Quantization and Distillation of Video-Generation Diffusion Transformers [31.95947876513405]
本稿では,ビデオDiTモデルに特化して設計された量子化フレームワークQDi-VTを提案する。量子化の観点から,トークンおよび特徴次元の量子化誤差を補償するToken-Aware Quantization Estor (TQE)を提案する。我々のW3A6 QDi-VTは23.40のシーン一貫性を実現し、新しいベンチマークを設定し、1.9$times$で最先端の量子化手法より優れている。
論文参考訳（メタデータ） (2025-05-28T09:33:52Z)
DVD-Quant: Data-free Video Diffusion Transformers Quantization [98.43940510241768]
Diffusion Transformers (DiT) はビデオ生成の最先端アーキテクチャとして登場したが、その計算とメモリの要求は実際の展開を妨げている。ビデオDiTのための新しいデータフリー量子化フレームワークであるDVD-Quantを提案する。提案手法は,データフリーな量子化誤差低減のための,プログレッシブバウンド量子化(PBQ)と自動スケーリング回転量子化(ARQ)の3つの重要なイノベーションを統合する。
論文参考訳（メタデータ） (2025-05-24T11:56:02Z)
PMQ-VE: Progressive Multi-Frame Quantization for Video Enhancement [83.89668902758243]
多フレームビデオ強調タスクは、ビデオシーケンスの空間的および時間的解像度と品質を改善することを目的としている。映像強調のためのプログレッシブマルチフレーム量子化(PMQ-VE)を提案する。このフレームワークは、バックトラックベースマルチフレーム量子化(BMFQ)とプログレッシブマルチ教師蒸留(PMTD)という、粗大な2段階のプロセスを備えている。
論文参考訳（メタデータ） (2025-05-18T07:10:40Z)
PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文参考訳（メタデータ） (2024-11-26T04:49:42Z)
QVD: Post-training Quantization for Video Diffusion Models [33.13078954859106]
ポストトレーニング量子化(PTQ)は、メモリフットプリントの削減と計算効率の向上に有効な手法である。本稿では,QVDと呼ばれるビデオ拡散モデルに適した最初のPTQ戦略を紹介する。我々は、W8A8のほぼロスレス性能劣化を達成し、FVDの205.12倍の性能向上を実現した。
論文参考訳（メタデータ） (2024-07-16T10:47:27Z)
Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers [45.762142897697366]
ポストトレーニング量子化(PTQ)は有望なソリューションとして登場し、事前訓練されたモデルに対するモデル圧縮と高速化推論を可能にする。 DiT量子化の研究は依然として不十分であり、既存のPTQフレームワークは偏りのある量子化に悩まされがちである。入力チャネル間での重みとアクティベーションの有意な分散を扱うための自動量子化粒度割当と、タイムステップとサンプルの両方にわたるアクティベーション変化を適応的にキャプチャする標本ワイド動的アクティベーション量子化という、2つの重要な手法をシームレスに統合する新しいアプローチであるQ-DiTを提案する。
論文参考訳（メタデータ） (2024-06-25T07:57:27Z)
MixDQ: Memory-Efficient Few-Step Text-to-Image Diffusion Models with Metric-Decoupled Mixed Precision Quantization [16.83403134551842]
最近の数ステップの拡散モデルでは、デノナイジングステップを減らして推論時間を短縮している。 Post Training Quantization (PTQ)は、高ビット幅のFP表現を低ビット整数値に置き換える。しかし、数ステップの拡散モデルに適用する場合、既存の量子化法は画質とテキストアライメントの両方を維持する上で困難に直面している。
論文参考訳（メタデータ） (2024-05-28T06:50:58Z)
PTQ4DiT: Post-training Quantization for Diffusion Transformers [52.902071948957186]
ポストトレーニング量子化(PTQ)は、計算とメモリフットプリントを大幅に削減できる高速でデータ効率のソリューションとして登場した。提案するPTQ4DiTは,DiTのための特別に設計されたPTQ手法である。 PTQ4DiTは8ビットの精度でDiTの量子化に成功した。
論文参考訳（メタデータ） (2024-05-25T02:02:08Z)
Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。 APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文参考訳（メタデータ） (2023-03-25T03:05:26Z)
Q-HyViT: Post-Training Quantization of Hybrid Vision Transformers with Bridge Block Reconstruction for IoT Systems [23.261607952479377]
視覚変換器(ViT)は、分類、検出、セグメンテーションを含む多くのアプリケーションで畳み込みニューラルネットワークに取って代わられている。本稿では,効率的なハイブリッドViTの量子化を初めて行うポストトレーニング量子化手法を提案する。従来のPTQ法と比較して, 8ビットで17.73%, 6ビットで29.75%の大幅な改善を実現している。
論文参考訳（メタデータ） (2023-03-22T13:41:22Z)
RepQ-ViT: Scale Reparameterization for Post-Training Quantization of Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。 RepQ-ViTは量子化と推論プロセスを分離する。既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文参考訳（メタデータ） (2022-12-16T02:52:37Z)
Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-10-13T04:00:29Z)
Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文参考訳（メタデータ） (2022-04-08T03:37:39Z)
FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文参考訳（メタデータ） (2021-11-27T06:20:53Z)
Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文参考訳（メタデータ） (2021-06-27T06:27:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。