論文の概要: PTQ4ARVG: Post-Training Quantization for AutoRegressive Visual Generation Models
- arxiv url: http://arxiv.org/abs/2601.21238v1
- Date: Thu, 29 Jan 2026 04:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.559486
- Title: PTQ4ARVG: Post-Training Quantization for AutoRegressive Visual Generation Models
- Title(参考訳): PTQ4ARVG:自己回帰視覚生成モデルのための後処理量子化
- Authors: Xuewen Liu, Zhikai Li, Jing Zhang, Mengjuan Chen, Qingyi Gu,
- Abstract要約: 量子化は一般的に、モデルサイズと計算遅延を低減するためにニューラルネットワークで使用される。
ARVGへの量子化の適用は、まだほとんど未検討である。
学習後量子化フレームワークPTQ4ARVGを提案する。
- 参考スコア(独自算出の注目度): 22.35209793690791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AutoRegressive Visual Generation (ARVG) models retain an architecture compatible with language models, while achieving performance comparable to diffusion-based models. Quantization is commonly employed in neural networks to reduce model size and computational latency. However, applying quantization to ARVG remains largely underexplored, and existing quantization methods fail to generalize effectively to ARVG models. In this paper, we explore this issue and identify three key challenges: (1) severe outliers at channel-wise level, (2) highly dynamic activations at token-wise level, and (3) mismatched distribution information at sample-wise level. To these ends, we propose PTQ4ARVG, a training-free post-training quantization (PTQ) framework consisting of: (1) Gain-Projected Scaling (GPS) mitigates the channel-wise outliers, which expands the quantization loss via a Taylor series to quantify the gain of scaling for activation-weight quantization, and derives the optimal scaling factor through differentiation.(2) Static Token-Wise Quantization (STWQ) leverages the inherent properties of ARVG, fixed token length and position-invariant distribution across samples, to address token-wise variance without incurring dynamic calibration overhead.(3) Distribution-Guided Calibration (DGC) selects samples that contribute most to distributional entropy, eliminating the sample-wise distribution mismatch. Extensive experiments show that PTQ4ARVG can effectively quantize the ARVG family models to 8-bit and 6-bit while maintaining competitive performance. Code is available at http://github.com/BienLuky/PTQ4ARVG .
- Abstract(参考訳): AutoRegressive Visual Generation (ARVG)モデルでは、言語モデルと互換性のあるアーキテクチャを維持しながら、拡散ベースのモデルに匹敵するパフォーマンスを実現している。
量子化は一般的に、モデルサイズと計算遅延を低減するためにニューラルネットワークで使用される。
しかし、 ARVG への量子化の適用は未定であり、既存の量子化法は ARVG モデルに効果的に一般化できない。
本稿では,(1)チャネルレベルでの厳しい外れ値,(2)トークンレベルでの高ダイナミックなアクティベーション,(3)サンプルレベルでのミスマッチ分布情報,の3つの主要な課題について検討する。
PTQ4ARVGは,(1)ゲイン・プロジェクテッド・スケーリング(GPS)はチャネルワイド・アウトレーヤを緩和し,テイラー級数を介して量子化損失を拡大し,アクティベーション・ウェイト・量子化のためのスケーリングのゲインを定量化し,微分を通じて最適なスケーリング係数を導出する。
2) 静的トークン・ワイズ量子化(STWQ)は, 動的キャリブレーションオーバーヘッドを発生させることなく, ARVGの固有特性, 固定トークン長, サンプル間の位置不変分布を利用する。
(3)分布誘導校正 (DGC) では, 分布エントロピーに最も寄与する試料を選別し, 分布ミスマッチを除去する。
広範な実験により、PTQ4ARVGは競合性能を維持しつつ、ARVGファミリーモデルを8ビット、6ビットに効果的に定量化できることが示されている。
コードはhttp://github.com/BienLuky/PTQ4ARVGで入手できる。
関連論文リスト
- Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。
また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文 参考訳(メタデータ) (2025-09-25T15:17:11Z) - LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation [41.66473889057111]
Diffusion Transformer (DiTs) は、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において、優れたパフォーマンスを実現している。
DiTsの高計算コストと大きなパラメータサイズは、リソース制約のあるシナリオでの利用に重大な課題をもたらす。
本稿では,映像・映像生成のための学習後量子化フレームワークLRQ-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:16:11Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。