論文の概要: PermuQuant: Lowering Per-Group Quantization Error by Reordering Channels for Diffusion Models
- arxiv url: http://arxiv.org/abs/2605.09503v1
- Date: Sun, 10 May 2026 12:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.283082
- Title: PermuQuant: Lowering Per-Group Quantization Error by Reordering Channels for Diffusion Models
- Title(参考訳): PermuQuant: 拡散モデルのためのチャネルの順序変更によるグループごとの量子化誤差の低減
- Authors: Yongsen Cheng, Kai Liu, Kaiwen Tao, Junxian Li, Zhixin Wang, Zhikai Chen, Renjing Pei, Yulun Zhang,
- Abstract要約: ポストトレーニング量子化(PTQ)は、高価なリトレーニングなしで事前トレーニングされたモデルを圧縮することで、実用的なソリューションを提供する。
既存のPTQ手法は、非常に低ビット設定で深刻な品質劣化に悩まされている。
低ビット拡散モデルのための単純かつ効果的なPTQフレームワークPermuQuantを提案する。
- 参考スコア(独自算出の注目度): 31.647243569492446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale visual generative models have achieved remarkable performance. However, their high computational and memory costs make deployment challenging in resource-constrained scenarios, such as interactive applications and personal single-GPU usage. Post-training quantization (PTQ) offers a practical solution by compressing pretrained models without expensive retraining. However, existing PTQ methods still suffer from severe quality degradation under extremely low-bit settings. In this paper, we identify channel ordering as an important but underexplored factor in per-group quantization. In this setting, each contiguous group shares one quantization scale. When channels with very different statistics are placed in the same group, the scale can be dominated by outliers and cause large quantization errors. Based on this observation, we propose PermuQuant, a simple and effective PTQ framework for low-bit diffusion models. PermuQuant sorts channels by a joint second-moment criterion before per-group quantization, placing channels with similar activation and weight statistics into the same group. It further uses a calibration-based acceptance rule to apply reordering only when the selected permutation reduces quantization error on calibration data. The selected permutations are absorbed into adjacent modules or applied to weights offline, avoiding explicit runtime permutation operations. Extensive experiments on multiple large diffusion models show that PermuQuant consistently reduces quantization error and outperforms existing PTQ baselines. On FLUX.1-dev with an RTX 5090, PermuQuant achieves up to a 1.8$\times$ single step speedup and reduces the DiT memory footprint by 3.5$\times$ under W4A4 NVFP4 quantization. Code will be available at https://github.com/yscheng04/PermuQuant.
- Abstract(参考訳): 大規模視覚生成モデルは目覚ましい性能を達成した。
しかし、その高い計算とメモリコストは、対話型アプリケーションや個人用シングルGPUの使用など、リソース制約のあるシナリオでのデプロイメントを困難にしている。
ポストトレーニング量子化(PTQ)は、高価なリトレーニングなしで事前トレーニングされたモデルを圧縮することで、実用的なソリューションを提供する。
しかし、既存のPTQ法は、非常に低ビット設定で深刻な品質劣化に悩まされている。
本稿では,グループ単位の量子化において,チャネルオーダリングが重要だが未探索の要素であることを示す。
この設定では、各連続群は1つの量子化スケールを共有する。
非常に異なる統計を持つチャネルを同じグループに配置すると、スケールは外れ値に支配され、大きな量子化誤差を引き起こす。
そこで本研究では,低ビット拡散モデルのための簡易かつ効果的なPTQフレームワークPermuQuantを提案する。
PermuQuantは、グループごとの量子化の前に、共同の第二モーメント基準によってチャネルをソートし、同じグループに同様のアクティベーションと重み統計を持つチャネルを配置する。
さらに、キャリブレーションベースの受け入れルールを使用して、選択された置換がキャリブレーションデータに対する量子化誤差を低減する場合にのみ、リオーダーを適用する。
選択された置換は隣接モジュールに吸収されるか、あるいはオフラインで重みに適用される。
複数の大きな拡散モデルに関する大規模な実験により、PermuQuantは量子化誤差を一貫して減らし、既存のPTQベースラインを上回ることを示した。
RTX 5090を搭載したFLUX.1-devでは、PermuQuantは1.8$\times$シングルステップの高速化を実現し、W4A4 NVFP4量子化の下でDiTメモリフットプリントを3.5$\times$に削減する。
コードはhttps://github.com/yscheng04/PermuQuant.comから入手できる。
関連論文リスト
- Rethinking Output Alignment For 1-bit Post-Training Quantization of Large Language Models [41.677469535447024]
大きな言語モデル(LLM)は、幅広いNLPタスクに対して強力なパフォーマンスを提供するが、その巨大なサイズは、リソースに制約のあるデバイスへのデプロイメントを妨げる。
トレーニング後の量子化(PTQ)は、リトレーニングを必要とせず、キャリブレーションのための小さなデータセットのみを必要とするため、その効率性に広く採用されている。
ポストトレーニング量子化の最近の進歩は、サブ4ビット法でさえオリジナルのモデル性能のほとんどを維持できることを示した。
論文 参考訳(メタデータ) (2025-12-25T12:39:36Z) - Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - SINQ: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights [8.95245917088986]
訓練後の量子化は、大規模言語モデルを低精度で展開するための最も広く使われている戦略として現れてきた。
現在の手法では、ビット幅が4以下でパープレキシティ劣化を示す。
本稿では,2軸スケール係数と高速シンクホーン-ノック方式のアルゴリズムにより,既存の学習後量子化器を増強するSINQを紹介する。
論文 参考訳(メタデータ) (2025-09-26T21:22:54Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。