論文の概要: QuantFace: Low-Bit Post-Training Quantization for One-Step Diffusion Face Restoration
- arxiv url: http://arxiv.org/abs/2506.00820v1
- Date: Sun, 01 Jun 2025 03:52:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.677161
- Title: QuantFace: Low-Bit Post-Training Quantization for One-Step Diffusion Face Restoration
- Title(参考訳): QuantFace: 1ステップ拡散面復元のための低ビット後処理量子化
- Authors: Jiatong Li, Libo Zhu, Haotong Qin, Jingkai Wang, Linghe Kong, Guihai Chen, Yulun Zhang, Xiaokang Yang,
- Abstract要約: 拡散モデルは顔修復において顕著な性能を発揮している。
拡散モデルの重い計算は、スマートフォンのようなデバイスにそれらを展開するのを困難にしている。
一段階拡散面復元モデルのための新しい低ビット量子化法であるQuantFaceを提案する。
- 参考スコア(独自算出の注目度): 109.89807858620242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have been achieving remarkable performance in face restoration. However, the heavy computations of diffusion models make it difficult to deploy them on devices like smartphones. In this work, we propose QuantFace, a novel low-bit quantization for one-step diffusion face restoration models, where the full-precision (\ie, 32-bit) weights and activations are quantized to 4$\sim$6-bit. We first analyze the data distribution within activations and find that they are highly variant. To preserve the original data information, we employ rotation-scaling channel balancing. Furthermore, we propose Quantization-Distillation Low-Rank Adaptation (QD-LoRA) that jointly optimizes for quantization and distillation performance. Finally, we propose an adaptive bit-width allocation strategy. We formulate such a strategy as an integer programming problem, which combines quantization error and perceptual metrics to find a satisfactory resource allocation. Extensive experiments on the synthetic and real-world datasets demonstrate the effectiveness of QuantFace under 6-bit and 4-bit. QuantFace achieves significant advantages over recent leading low-bit quantization methods for face restoration. The code is available at https://github.com/jiatongli2024/QuantFace.
- Abstract(参考訳): 拡散モデルは顔修復において顕著な性能を発揮している。
しかし、拡散モデルの重い計算は、スマートフォンのようなデバイスにそれらを展開するのを困難にしている。
本研究では,一段階拡散面復元モデルのための新しい低ビット量子化法であるQuantFaceを提案し,全精度(32ビット,32ビット)の重みとアクティベーションを4$\sim$6-bitに量子化する。
まず、アクティベーション内のデータ分布を分析し、それらが高度に変動していることを示す。
元のデータ情報を保存するために、ローテーションスケーリングチャネルのバランシングを用いる。
さらに, 定量化と蒸留性能を共同で最適化するQD-LoRAを提案する。
最後に,適応的なビット幅割り当て戦略を提案する。
我々は、量子化誤差と知覚的メトリクスを組み合わせた整数計画問題としてそのような戦略を定式化し、良好なリソース割り当てを求める。
合成および実世界のデータセットに対する大規模な実験は、QuantFaceの6ビットと4ビットでの有効性を示している。
QuantFaceは、最近の顔復元のための主要な低ビット量子化法に対して大きな利点がある。
コードはhttps://github.com/jiatongli2024/QuantFaceで入手できる。
関連論文リスト
- Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。
我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。
我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文 参考訳(メタデータ) (2025-05-08T13:26:19Z) - ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals [10.860081994662645]
大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。
本稿では,最先端技術をさらに推し進めるPTQ手法であるResQを提案する。
ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-18T22:01:55Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - P4Q: Learning to Prompt for Quantization in Visual-language Models [38.87018242616165]
量子化のためのPrompt(P4Q)という,微調整と量子化のバランスをとる手法を提案する。
提案手法は,低ビット量子化による画像特徴とテキスト特徴とのギャップを効果的に低減することができる。
私たちの8ビットP4Qは理論上CLIP-ViT/B-32を4$times$で圧縮でき、Top-1の精度は66.94%である。
論文 参考訳(メタデータ) (2024-09-26T08:31:27Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。
重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。
提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。