論文の概要: SegQuant: A Semantics-Aware and Generalizable Quantization Framework for Diffusion Models
- arxiv url: http://arxiv.org/abs/2507.14811v2
- Date: Wed, 23 Jul 2025 07:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 12:00:05.65378
- Title: SegQuant: A Semantics-Aware and Generalizable Quantization Framework for Diffusion Models
- Title(参考訳): SegQuant: 拡散モデルのためのセマンティック認識と一般化可能な量子化フレームワーク
- Authors: Jiaji Zhang, Ruichao Sun, Hailiang Zhao, Jiaju Wu, Peng Chen, Hao Li, Yuying Liu, Xinkui Zhao, Kingsum Chow, Gang Xiong, Shuiguang Deng,
- Abstract要約: SegQuantは、相互モデルの汎用性を高めるために相補的なテクニックを適応的に組み合わせた、統一的な量子化フレームワークである。
SegQuantはTransformerベースの拡散モデルを越えて広く適用でき、強力なパフォーマンスを実現し、メインストリームのデプロイメントツールとのシームレスな互換性を確保している。
- 参考スコア(独自算出の注目度): 12.758539843101447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have demonstrated exceptional generative capabilities but are computationally intensive, posing significant challenges for deployment in resource-constrained or latency-sensitive environments. Quantization offers an effective means to reduce model size and computational cost, with post-training quantization (PTQ) being particularly appealing due to its compatibility with pre-trained models without requiring retraining or training data. However, existing PTQ methods for diffusion models often rely on architecture-specific heuristics that limit their generalizability and hinder integration with industrial deployment pipelines. To address these limitations, we propose SegQuant, a unified quantization framework that adaptively combines complementary techniques to enhance cross-model versatility. SegQuant consists of a segment-aware, graph-based quantization strategy (SegLinear) that captures structural semantics and spatial heterogeneity, along with a dual-scale quantization scheme (DualScale) that preserves polarity-asymmetric activations, which is crucial for maintaining visual fidelity in generated outputs. SegQuant is broadly applicable beyond Transformer-based diffusion models, achieving strong performance while ensuring seamless compatibility with mainstream deployment tools.
- Abstract(参考訳): 拡散モデルは例外的な生成能力を示してきたが、計算集約的であり、資源制約や遅延に敏感な環境での展開において重大な課題を提起している。
量子化は、トレーニング後の量子化(PTQ)が、トレーニングデータやトレーニングデータを必要としない事前トレーニングされたモデルとの互換性のために特に魅力的であるので、モデルのサイズと計算コストを削減する効果的な手段を提供する。
しかしながら、拡散モデルのための既存のPTQメソッドは、その一般化可能性を制限するアーキテクチャ固有のヒューリスティックに依存し、産業展開パイプラインとの統合を妨げることが多い。
これらの制約に対処するために,相互モデルの汎用性を高めるために相補的手法を適応的に組み合わせた統一量子化フレームワークであるSegQuantを提案する。
SegQuantは、構造的意味論と空間的不均一性を捉えるセグメント対応グラフベースの量子化戦略(SegLinear)と、極性非対称なアクティベーションを保存するデュアルスケール量子化スキーム(DualScale)で構成される。
SegQuantはTransformerベースの拡散モデルを越えて広く適用でき、強力なパフォーマンスを実現し、メインストリームのデプロイメントツールとのシームレスな互換性を確保している。
関連論文リスト
- MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - AQUATIC-Diff: Additive Quantization for Truly Tiny Compressed Diffusion Models [4.373803477995854]
この研究は、拡散モデル圧縮の問題にコードブックベースの加算ベクトル量子化を適用する。
We report sFID 1.92 points lower than the full-precision model at W4A8 and the best-reported results for FID, sFID and ISC at W2A8。
また、効率的な推論カーネルを介して、任意のハードウェア上でFLOPの節約を実証することができる。
論文 参考訳(メタデータ) (2025-06-06T10:37:09Z) - QT-DoG: Quantization-aware Training for Domain Generalization [58.439816306817306]
領域一般化のための量子化アウェアトレーニング(QT-DoG)を提案する。
我々は、減量量化が損失景観におけるより平坦なミニマムを効果的に導くことを実証した。
QT-DoGは、モデル重みのノイズを誘導することで暗黙の正則化器として量子化を利用する。
論文 参考訳(メタデータ) (2024-10-08T13:21:48Z) - Cons-training Tensor Networks: Embedding and Optimization Over Discrete Linear Constraints [2.8834278113855896]
我々は,制約行列積状態(MPS)と呼ばれるテンソルネットワークの新たなファミリーを導入する。
MPSは、不等式を含む正確に任意の離散線型制約をスパースブロック構造に組み込む。
これらのネットワークは、特に、可能空間上で厳密にサポートされた分散をモデル化するために調整されている。
論文 参考訳(メタデータ) (2024-05-15T00:13:18Z) - Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers [10.566264033360282]
ポストトレーニング量子化(PTQ)は、モバイルやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして登場した。
本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T05:58:43Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。
我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。
本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文 参考訳(メタデータ) (2024-02-06T03:39:44Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。