論文の概要: HAS-VQ: Hessian-Adaptive Sparse Vector Quantization for High-Fidelity LLM Compression
- arxiv url: http://arxiv.org/abs/2601.06959v1
- Date: Sun, 11 Jan 2026 15:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.08747
- Title: HAS-VQ: Hessian-Adaptive Sparse Vector Quantization for High-Fidelity LLM Compression
- Title(参考訳): HAS-VQ:高密度LDM圧縮のためのヘシアン適応スパースベクトル量子化
- Authors: Vladimer Khasia,
- Abstract要約: HAS-VQ (Hessian-Adaptive Sparse Vec-tor Quantization) は,高感度のアウトレーヤをバルク重量分布から厳密に分離する圧縮フレームワークである。
我々は, SmolLM2-1.7B上のHAS-VQを評価し, 2つの異なる優越性を証明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization is essential for deploying Large Language Models (LLMs) on resource- constrained devices. However, standard integer quantization (e.g., INT4) fundamentally degrades per- formance by imposing a uniform grid on the heavy-tailed distribution of weight parameters, particularly in smaller-scale models (e.g., <2B parameters). We introduce HAS-VQ (Hessian-Adaptive Sparse Vec- tor Quantization), a compression framework that strictly decouples high-sensitivity outliers from the bulk weight distribution using second-order sensitivity analysis. HAS-VQ employs a Hessian-Masked Decoupling strategy to isolate sensitive parameters, followed by robust Vector Quantization (VQ) of the remaining dense body. Crucially, we introduce a residual sparse feedback mechanism that corrects quan- tization errors in the most sensitive dimensions, ensuring exact reconstruction of outliers. We evaluate HAS-VQ on SmolLM2-1.7B, demonstrating two distinct regimes of superiority: (1) Pareto Dominance over Integer Baselines: At 4.23 effective bits-per-parameter (BPP), we achieve a perplexity of 14.23, significantly outperforming the standard INT4 baseline (20.03 PPL at 4.71 BPP). (2) High-Fidelity Compression: Relative to the FP16 baseline, HAS-VQ achieves a 2.3x reduction in model size (7.03 BPP) while maintaining statistically indistinguishable perplexity (10.12 vs. 10.04), effectively offering a lossless compression alternative for bandwidth-constrained environments. The code is available at https://github.com/VladimerKhasia/HASVQ
- Abstract(参考訳): トレーニング後の量子化は、リソース制約のあるデバイスに大規模言語モデル(LLM)をデプロイするために不可欠である。
しかし、標準整数量子化(eg, INT4)は、特に小型モデル(eg, <2Bパラメータ)において、重みパラメータの重み付き分布に一様格子を課すことにより、形式ごとの分解を根本的に行う。
HAS-VQ (Hessian-Adaptive Sparse Vec-tor Quantization) は,2次感度解析を用いて高感度外周をバルク重量分布から厳密に分離する圧縮フレームワークである。
HAS-VQは、過敏なパラメータを分離するためにヘシアン・マスケド・デカップリング戦略を採用し、続いて残った高密度体のロバストなベクトル量子化(VQ)を行う。
重要なことは、最も敏感な次元におけるクオン・タイズ誤差を補正し、外れ値の正確な再構成を確実にする残留スパースフィードバック機構を導入する。
我々はSmolLM2-1.7B上のHAS-VQを評価し,(1)整数ベースラインに対するパレート優位性:4.23有効ビット/パラメータ(BPP)では14.23のパープレキシティを実現し,標準INT4ベースライン(4.71BPPで20.03PPL)を著しく上回った。
2)FP16ベースラインに対して、HAS-VQは統計的に区別不能なパープレキシティ(10.12対10.04)を維持しつつ、モデルサイズ(7.03 BPP)の2.3倍の縮小を実現し、帯域幅制限された環境に対する損失のない圧縮代替手段を効果的に提供する。
コードはhttps://github.com/VladimerKhasia/HASVQで公開されている。
関連論文リスト
- Preserving Continuous Symmetry in Discrete Spaces: Geometric-Aware Quantization for SO(3)-Equivariant GNNs [12.753341915660073]
等変モデルを圧縮・加速するGeometric-Aware Quantization (GAQ) フレームワークを提案する。
消費者向けハードウェアでは、GAQは2.39倍の推論スピードアップと4倍のメモリ削減を実現し、安定したエネルギー保存分子動力学シミュレーションを可能にする。
論文 参考訳(メタデータ) (2026-03-05T16:20:21Z) - SPQ: An Ensemble Technique for Large Language Model Compression [1.2891210250935148]
SPQ(SVD-Pruning-Quantization)は,大規模言語モデルLLM圧縮のためのアンサンブル手法である。
最大75%のメモリ削減を実現し、パープレキシティを維持または改善する。
GPTQよりも推論を改善し、最大1.9倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2026-02-20T18:44:16Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - D$^2$Quant: Accurate Low-bit Post-Training Weight Quantization for LLMs [33.883527341335856]
軽量後トレーニング量子化(PTQ)は、メモリ使用量を減らし、低ビット演算子や専用ハードウェアを使わずに実用的なスピードアップを可能にするため、魅力的である。
精度は、重量のみのPTQにおいて、サブ-4ビットの精度で著しく低下する。
D$2$Quantは、ウェイトとアクティベーションの両方の観点から量子化を改善する新しいウェイトオンリーのPTQフレームワークである。
論文 参考訳(メタデータ) (2026-01-30T05:49:48Z) - Intrinsic Structure as a Proxy for Saliency: SVD-Based Weight Preservation for Mixed-Precision Quantization in Large Language Models [0.0]
ポストトレーニング量子化(PTQ)は、モデル重みの精度を4ビット以下に下げることでこの問題に対処する。
現在の最先端の手法は、塩分量を特定するためにキャリブレーションデータに依存している。
本稿では,データフリーな構造認識仮説を提案する。Singular Value Decomposition (SVD) による主成分として同定された重みは,モデル下流の性能に本質的に重要である。
論文 参考訳(メタデータ) (2025-12-01T06:58:30Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。
球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。
また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文 参考訳(メタデータ) (2025-09-25T15:17:11Z) - RSAVQ: Riemannian Sensitivity-Aware Vector Quantization for Large Language Models [17.273189597394072]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
指数関数的に増加するパラメータは、リソース制約のあるデバイスへの展開に重大な課題をもたらす。
LLMの超低ビット量子化を実現する新しいフレームワークであるRSAVQを提案する。
論文 参考訳(メタデータ) (2025-09-24T01:40:32Z) - IMPQ: Interaction-Aware Layerwise Mixed Precision Quantization for LLMs [4.655407920049974]
混合精度量子化は説得力のある解であるが、従来の方法では平均精度が4ビット以下に低下する。
本稿では,これらの制約に対処する2つのイノベーションを提案する。
まず,混合精度量子化問題を階層間の協調ゲームとして構成し,Shapley-based Progressive Quantization Estimation (SPQE)を導入する。
次に、これらのShapley推定値を2次最適化形式に変換する対話型混合精度量子化(IMPQ)を提案する。
論文 参考訳(メタデータ) (2025-09-18T21:59:40Z) - PCDVQ: Enhancing Vector Quantization for Large Language Models via Polar Coordinate Decoupling [53.91873442457923]
ベクトル量子化(VQ)は、非常に低ビット(2ビットでも)で精度の高いこの問題に対する一般的な解決策である。
本稿では,効率的なVQフレームワークであるPola Coordinate Decoupled Vector Quantization (PCDVQ)を提案する。
実験の結果、PCDVQは2ビットレベルのベースライン法を少なくとも1.5%ゼロショット精度で上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-05T08:58:58Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals [10.860081994662645]
大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。
本稿では,最先端技術をさらに推し進めるPTQ手法であるResQを提案する。
ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-18T22:01:55Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。