論文の概要: LoPRo: Enhancing Low-Rank Quantization via Permuted Block-Wise Rotation
- arxiv url: http://arxiv.org/abs/2601.19675v1
- Date: Tue, 27 Jan 2026 14:56:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.356914
- Title: LoPRo: Enhancing Low-Rank Quantization via Permuted Block-Wise Rotation
- Title(参考訳): LoPRo: 可変ブロック幅回転による低ランク量子化の強化
- Authors: Hongyaoxing Gu, Lijuan Hu, Liye Yu, Haowei Li, Fangfang Liu,
- Abstract要約: ポストトレーニング量子化(PTQ)は、比較的高い精度を維持しながら効果的なモデル圧縮を可能にする。
残留行列量子化を向上する新しい微調整不要なPTQアルゴリズムであるLoPRoを提案する。
実験により、LoPRoは2ビットおよび3ビットの量子化において既存の微調整不要のPTQ法より優れていることが示された。
- 参考スコア(独自算出の注目度): 6.797237769820339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) enables effective model compression while preserving relatively high accuracy. Current weight-only PTQ methods primarily focus on the challenging sub-3-bit regime, where approaches often suffer significant accuracy degradation, typically requiring fine-tuning to achieve competitive performance. In this work, we revisit the fundamental characteristics of weight quantization and analyze the challenges in quantizing the residual matrix under low-rank approximation. We propose LoPRo, a novel fine-tuning-free PTQ algorithm that enhances residual matrix quantization by applying block-wise permutation and Walsh-Hadamard transformations to rotate columns of similar importance, while explicitly preserving the quantization accuracy of the most salient column blocks. Furthermore, we introduce a mixed-precision fast low-rank decomposition based on rank-1 sketch (R1SVD) to further minimize quantization costs. Experiments demonstrate that LoPRo outperforms existing fine-tuning-free PTQ methods at both 2-bit and 3-bit quantization, achieving accuracy comparable to fine-tuning baselines. Specifically, LoPRo achieves state-of-the-art quantization accuracy on LLaMA-2 and LLaMA-3 series models while delivering up to a 4$\times$ speedup. In the MoE model Mixtral-8x7B, LoPRo completes quantization within 2.5 hours, simultaneously reducing perplexity by 0.4$\downarrow$ and improving accuracy by 8\%$\uparrow$. Moreover, compared to other low-rank quantization methods, LoPRo achieves superior accuracy with a significantly lower rank, while maintaining high inference efficiency and minimal additional latency.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、比較的高い精度を維持しながら効果的なモデル圧縮を可能にする。
現在の重量限定PTQ法は主に、競合性能を達成するために微調整を必要とするアプローチがしばしば顕著な精度低下を被る、挑戦的なサブ3ビット方式に重点を置いている。
本研究では,重量量子化の基本特性を再考し,低ランク近似下での残留行列の定量化の課題を分析する。
ブロックワイドな置換とWalsh-Hadamard変換を適用した新しい微調整不要なPTQアルゴリズムであるLoPRoを提案し、最も有意な列ブロックの量子化精度を明示的に保ちながら、同様の重要な列を回転させる。
さらに,ランク1スケッチ(R1SVD)に基づく混合精度高速低ランク分解を導入し,量子化コストをさらに最小化する。
実験により、LoPRoは2ビットおよび3ビットの量子化において既存の微調整不要PTQ法よりも優れており、微調整ベースラインに匹敵する精度が達成されている。
特に、LoPRoはLLaMA-2とLLaMA-3のモデル上で4$\times$のスピードアップを実現している。
MoEモデル Mixtral-8x7B では、LoPRo は2.5時間以内に量子化を完了し、同時にパープレキシティを 0.4$\downarrow$ で、精度を 8\%$\uparrow$ で改善した。
さらに、他の低ランク量子化法と比較して、LoPRoは高い推論効率と最小の追加レイテンシを維持しながら、かなり低いランクで優れた精度を実現している。
関連論文リスト
- SpecQuant: Spectral Decomposition and Adaptive Truncation for Ultra-Low-Bit LLMs Quantization [18.039420989848484]
SpecQuantはアクティベーションアウトレーヤとチャネル間の分散に対処する2段階のフレームワークである。
LLaMA-3 8Bでは、SpecQuantはウェイトとアクティベーションの両方で4ビットの量子化を実現し、ゼロショット精度のギャップは全精度に比べてわずか1.5%に縮小した。
論文 参考訳(メタデータ) (2025-11-11T11:02:13Z) - LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation [41.66473889057111]
Diffusion Transformer (DiTs) は、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において、優れたパフォーマンスを実現している。
DiTsの高計算コストと大きなパラメータサイズは、リソース制約のあるシナリオでの利用に重大な課題をもたらす。
本稿では,映像・映像生成のための学習後量子化フレームワークLRQ-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:16:11Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [37.061975191553]
本稿では,拡散モデルのための混合精度量子化法MPQ-DMを提案する。
重み付き外周波による量子化誤差を軽減するために,外周波混合量子化手法を提案する。
時間ステップを横断する表現を頑健に学習するために,時間-平滑な関係蒸留方式を構築した。
論文 参考訳(メタデータ) (2024-12-16T08:31:55Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。