論文の概要: LoRaQ: Optimized Low Rank Approximation for 4-bit Quantization
- arxiv url: http://arxiv.org/abs/2604.18117v1
- Date: Mon, 20 Apr 2026 11:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.835596
- Title: LoRaQ: Optimized Low Rank Approximation for 4-bit Quantization
- Title(参考訳): LoRaQ: 4ビット量子化のための最適化された低ランク近似
- Authors: Yann Bouquet, Alireza Khodamoradi, Sophie Yáng Shen, Kristof Denolf, Mathieu Salzmann,
- Abstract要約: トレーニング後の量子化(PTQ)は、リソース制約のあるハードウェアに大規模な拡散トランスフォーマーをデプロイするために不可欠である。
LoRaQ (Low-Rank Approximated Quantization) は、量子化誤差補償を最適化する単純なデータフリーキャリブレーション手法である。
Pixart-$とSANAのネイティブ実装において、LoRaQが最先端のメソッドよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 39.25504627568235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) is essential for deploying large diffusion transformers on resource-constrained hardware, but aggressive 4-bit quantization significantly degrades generative performance. Low-rank approximation methods have emerged as a promising solution by appending auxiliary linear branches to restore performance. However, current state-of-the-art approaches assume these branches must retain high precision (W16A16) and rely on heavy, data-dependent calibration for initialization. We challenge both limitations with LoRaQ (Low-Rank Approximated Quantization), a simple, data-free calibration approach that optimizes quantization error compensation. By overcoming the need for high-precision branches, LoRaQ enables the first fully sub-16 bit pipeline, allowing the low-rank branch itself to be quantized. We demonstrate that, at equal memory overhead, LoRaQ outperforms the state-of-the-art methods in their native implementations on Pixart-$Σ$ and SANA. We also analyze mixed-precision configurations, showing that setups such as W8A8, W6A6, and W4A8 for the low-rank branch, alongside a W4 main layer, yield superior results while maintaining a fully quantized architecture compatible with modern mixed-precision hardware.
- Abstract(参考訳): トレーニング後の量子化(PTQ)は、リソース制約のあるハードウェアに大規模な拡散トランスフォーマーをデプロイするために必須であるが、攻撃的な4ビット量子化は生成性能を著しく低下させる。
低ランク近似法は、補助線形分岐を付加して性能を回復することで有望な解法として浮上している。
しかし、現在の最先端のアプローチでは、これらの分岐は高い精度(W16A16)を維持し、初期化に重くデータに依存した校正に依存しなければならないと仮定している。
LoRaQ(Low-Rank Approximated Quantization, Low-Rank Approximated Quantization)は、量子化エラー補償を最適化する単純なデータフリーキャリブレーション手法である。
高精度ブランチの必要性を克服することで、LoRaQは最初の完全に16ビット以下のパイプラインを可能にし、ローランクブランチ自体の量子化を可能にした。
メモリオーバーヘッドが等しい場合、LoRaQはPixart-$$$およびSANAのネイティブ実装において最先端のメソッドよりも優れていることを示す。
また、W8A8、W6A6、W4A8といった低ランクブランチのセットアップとW4の主層を併用して、最新の混合精度ハードウェアと互換性のある完全量子化アーキテクチャを維持しつつ、優れた結果が得られることを示す。
関連論文リスト
- SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization [7.372706701787234]
学習後量子化(PTQ)は,大規模言語モデルを効率的に展開するための一般的な手法として登場した。
SERQは1つの低ランク補償行列を用いる低ビットLLM推論のためのサリエンシ対応誤差再構成法である。
論文 参考訳(メタデータ) (2026-03-09T10:04:12Z) - ARCQuant: Boosting NVFP4 Quantization with Augmented Residual Channels for LLMs [4.431548809730958]
ARCQuantは、Augmented Residual Channelsを通じてNVFP4パフォーマンスを向上させるフレームワークである。
ARCQuantは、複雑なタスクや下流タスクにおいて、完全精度のベースラインに匹敵する、最先端の精度を実現する。
論文 参考訳(メタデータ) (2026-01-12T12:27:22Z) - CAGE: Curvature-Aware Gradient Estimation For Accurate Quantization-Aware Training [73.46600457802693]
本稿では,量子化による損失に対応する新しい手法を提案する。
CAGEは、同様の計算コストで、精度の観点から最先端の手法を大幅に改善する。
LlamaモデルのQAT事前トレーニングでは、CAGEは4ビット(W4A4)で達成された精度と事前のベストメソッドとを一致させる。
論文 参考訳(メタデータ) (2025-10-21T16:33:57Z) - Post-Training Quantization via Residual Truncation and Zero Suppression for Diffusion Models [10.000323762676633]
拡散モデルは、高品質な画像生成を実現するが、高い計算要求のため、デプロイメントの課題に直面している。
拡散モデルのための4ビットPTQスキームであるResidual Truncation and Zero Suppression (QuaRTZ) による量子化を提案する。
提案手法は,外乱保存とLSB精度のバランスをとることにより,丸め誤差を低減し,量子化効率を向上させる。
論文 参考訳(メタデータ) (2025-09-30T15:55:42Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Efficient Fine-Tuning of Quantized Models via Adaptive Rank and Bitwidth [10.872650037112255]
QLoRAは、低ビット量子化とLoRAを効果的に組み合わせて、大規模言語モデル(LLM)のためのメモリフレンドリーな微調整を実現する。
部分キャリブレーションデータを用いて、各層に対する量子化成分と低ランク空間のランクを共同で探索する、統一的かつ勾配のない戦略である textbfQR-Adaptor を提案する。
提案手法はGSM8Kに対して4.89%の精度向上を実現し、4ビット設定のメモリフットプリントを維持しつつ、16ビットの微調整モデルよりも優れるケースもある。
論文 参考訳(メタデータ) (2025-05-02T08:46:01Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。