論文の概要: CLQ: Cross-Layer Guided Orthogonal-based Quantization for Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2509.24416v1
- Date: Mon, 29 Sep 2025 08:06:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.840011
- Title: CLQ: Cross-Layer Guided Orthogonal-based Quantization for Diffusion Transformers
- Title(参考訳): CLQ:拡散変換器用交叉案内直交型量子化
- Authors: Kai Liu, Shaoqiu Zhang, Linghe Kong, Yulun Zhang,
- Abstract要約: トレーニング後の量子化(PTQ)は、メモリ消費を減らし、推論を高速化する。
直交型直交量子化法であるCLQを提案する。
我々は、画像生成モデルと映像生成モデルの両方でCLQを評価し、視覚的品質とメトリクスの無視できる劣化を伴って、モデルをW4A4に圧縮することに成功した。
- 参考スコア(独自算出の注目度): 40.34990427735821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual generation quality has been greatly promoted with the rapid advances in diffusion transformers (DiTs), which is attributed to the scaling of model size and complexity. However, these attributions also hinder the practical deployment of DiTs on edge devices, limiting their development and application. Serve as an efficient model compression technique, model post-training quantization (PTQ) can reduce the memory consumption and speed up the inference, with inevitable performance degradation. To alleviate the degradation, we propose CLQ, a cross-layer guided orthogonal-based quantization method for DiTs. To be specific, CLQ consists of three key designs. First, we observe that the calibration data used by most of the PTQ methods can not honestly represent the distribution of the activations. Therefore, we propose cross-block calibration (CBC) to obtain accurate calibration data, with which the quantization can be better guided. Second, we propose orthogonal-based smoothing (OBS), which quantifies the outlier score of each channel and leverages block Hadamard matrix to smooth the outliers with negligible overhead. Third, we propose cross-layer parameter searching (CLPS) to search. We evaluate CLQ with both image generation and video generation models and successfully compress the model into W4A4 with negligible degradation in visual quality and metrics. CLQ achieves 3.98x memory saving and 3.95x speedup. Our code is available at \hyperlink{https://github.com/Kai-Liu001/CLQ}{https://github.com/Kai-Liu001/CLQ}.
- Abstract(参考訳): モデルサイズと複雑さのスケーリングに起因する拡散変換器(DiT)の急速な進歩により、視覚生成品質が大幅に向上した。
しかし、これらの属性は、エッジデバイスへのDiTの実践的な展開を妨げ、開発と応用を制限している。
効率的なモデル圧縮技術として、モデル後量子化(PTQ)は、メモリ消費を削減し、性能劣化を回避し、推論を高速化する。
劣化を軽減するために,直交型直交量子化法であるCLQを提案する。
具体的には、CLQは3つの重要な設計で構成されている。
まず,PTQ法の大部分で使用されるキャリブレーションデータでは,アクティベーションの分布を正直に表現することはできない。
そこで本研究では,正確なキャリブレーションデータを得るためのクロスブロックキャリブレーション(CBC)を提案する。
第二に直交型スムーシング (OBS) を提案し, 各チャネルのアウトラヤスコアを定量化し, ブロックアダマール行列を利用して, 無視できるオーバーヘッドでアウトラヤをスムースにする。
第3に,クロス層パラメータ探索(CLPS)を提案する。
我々は、画像生成モデルと映像生成モデルの両方でCLQを評価し、視覚的品質とメトリクスの無視できる劣化を伴って、モデルをW4A4に圧縮することに成功した。
CLQは3.98倍のメモリ節約と3.95倍のスピードアップを実現している。
我々のコードは \hyperlink{https://github.com/Kai-Liu001/CLQ}{https://github.com/Kai-Liu001/CLQ} で入手できる。
関連論文リスト
- SINQ: Sinkhorn-Normalized Quantization for Calibration-Free Low-Precision LLM Weights [8.95245917088986]
訓練後の量子化は、大規模言語モデルを低精度で展開するための最も広く使われている戦略として現れてきた。
現在の手法では、ビット幅が4以下でパープレキシティ劣化を示す。
本稿では,2軸スケール係数と高速シンクホーン-ノック方式のアルゴリズムにより,既存の学習後量子化器を増強するSINQを紹介する。
論文 参考訳(メタデータ) (2025-09-26T21:22:54Z) - Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。
また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文 参考訳(メタデータ) (2025-09-25T15:17:11Z) - LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation [41.66473889057111]
Diffusion Transformer (DiTs) は、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において、優れたパフォーマンスを実現している。
DiTsの高計算コストと大きなパラメータサイズは、リソース制約のあるシナリオでの利用に重大な課題をもたらす。
本稿では,映像・映像生成のための学習後量子化フレームワークLRQ-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:16:11Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [28.67781845829386]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、モデル出力を無視した層ワイドユークリッド損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むために,出力適応量子化(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - Towards Accurate Post-training Quantization for Reparameterized Models [6.158896686945439]
現在のポストトレーニング量子化法(PTQ)は、しばしばかなりの精度の劣化を引き起こす。
これは主にチャネル特異的およびサンプル特異的な外れ値によって引き起こされる。
本稿では、量子化された再パラメータ化モデルの精度を維持する新しいフレームワークであるRepAPQを提案する。
論文 参考訳(メタデータ) (2024-02-25T15:42:12Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。