論文の概要: Intrinsic Structure as a Proxy for Saliency: SVD-Based Weight Preservation for Mixed-Precision Quantization in Large Language Models
- arxiv url: http://arxiv.org/abs/2512.01343v1
- Date: Mon, 01 Dec 2025 06:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.728562
- Title: Intrinsic Structure as a Proxy for Saliency: SVD-Based Weight Preservation for Mixed-Precision Quantization in Large Language Models
- Title(参考訳): 親和性のプロキシとしての内在構造:大言語モデルにおける混合精度量子化のためのSVDに基づく重み保存
- Authors: Shashank Landge, Abhishek Patil, Tejas kamble, Bhushan Buddhivant, Priyanka Joshi,
- Abstract要約: ポストトレーニング量子化(PTQ)は、モデル重みの精度を4ビット以下に下げることでこの問題に対処する。
現在の最先端の手法は、塩分量を特定するためにキャリブレーションデータに依存している。
本稿では,データフリーな構造認識仮説を提案する。Singular Value Decomposition (SVD) による主成分として同定された重みは,モデル下流の性能に本質的に重要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) continue to scale in parameter count, deploying them on commodity hardware has become increasingly challenging. Post-Training Quantization (PTQ) addresses this by reducing the precision of model weights, typically to 4-bit or lower. However, uniform quantization often leads to significant performance degradation due to the presence of ``outlier features'' -- weights that, while few in number, are critical for maintaining model accuracy. Current state-of-the-art methods such as AWQ (Activation-aware Weight Quantization) and SpQR (Sparse Quantization Representations) rely on calibration data to identify these salient weights via activation magnitudes or Hessian sensitivity. In scenarios where data privacy is paramount or calibration data is unavailable, these methods are inapplicable. In this work, we propose a data-free, structure-aware hypothesis: that the weights identified as Principal Components via Singular Value Decomposition (SVD) are intrinsically important to the model's downstream performance. We introduce a novel selection heuristic that preserves the top-$k$ weights aligned with the principal components in FP32, while aggressively quantizing the residual weights. We compare our method against activation-aware (AWQ) and second-order (SpQR) methods across GLUE benchmarks (MRPC, RTE, QNLI) using a DistilBERT backbone. Our experiments reveal that structural importance is highly correlated with functional importance. On the challenging RTE task, our SVD-based method achieves an accuracy of 66.06\%, outperforming both AWQ (65.34\%) and SpQR (65.34\%) at high protection budgets, validating that intrinsic matrix structure can serve as a robust proxy for weight saliency without the need for forward passes or calibration data.
- Abstract(参考訳): LLM(Large Language Models)がパラメータカウントを拡大し続けるにつれ、コモディティハードウェアへの展開がますます困難になっている。
ポストトレーニング量子化(PTQ)は、モデル重みの精度を4ビット以下に下げることでこの問題に対処する。
しかし、均一な量子化は、しばしば ''outlier features'' の存在によってパフォーマンスが著しく低下する。
AWQ (Activation-aware Weight Quantization) やSpQR (Sparse Quantization Representations) といった現在の最先端の手法では、アクティベーションマグニチュードやヘッセン感度によってこれらの塩分重量を識別するためにキャリブレーションデータに依存している。
データプライバシが最優先またはキャリブレーションデータが利用できないシナリオでは、これらのメソッドは適用できない。
本研究では,主成分として同定された重みをSingular Value Decomposition (SVD) というデータフリーな構造認識仮説を提案する。
我々は,FP32の主成分と整合した最上位の重量を積極的に定量化しながら保存する,新しい選択ヒューリスティックを導入する。
DistilBERTのバックボーンを用いたGLUEベンチマーク(MRPC, RTE, QNLI)におけるアクティベーション・アウェア(AWQ)と2次手法(SpQR)を比較した。
構造的重要性は機能的重要性と極めて相関している。
この課題に対して,本手法は66.06\%の精度を達成し,AWQ (65.34\%) とSpQR (65.34\%) の両方を高い保護予算で上回り,本質的行列構造が前方通過やキャリブレーションデータを必要とせずに,重量塩分濃度の堅牢なプロキシとして機能することを検証した。
関連論文リスト
- Extreme Model Compression with Structured Sparsity at Low Precision [10.976782748075067]
ディープニューラルネットワーク(DNN)は多くのアプリケーションで使用されているが、その大きなサイズと高い計算コストにより、限られたリソースを持つデバイス上での動作が困難になる。
この課題に対処するために広く使われている2つの手法は、重量量子化(英語版)であり、これは全ての重量の精度を下げるものであり、構造的空間性(英語版)は重要でない重量を除去し、重要な重量を完全精度で保持する。
低精度のSLOPE構造空間を統一的なフレームワークとして導入し、構造化された空間空間と低ビット量子化を原理的に効果的に組み合わせる。
論文 参考訳(メタデータ) (2025-11-11T15:37:55Z) - Quantization Meets Reasoning: Exploring and Mitigating Degradation of Low-Bit LLMs in Mathematical Reasoning [39.56908863102256]
低ビット後の量子化は、より厳しい設定で69.81%の数学的推論を損なう。
デプロイクリティカルな2つの問題に,プロセスレベルの精度で対処する。
われわれの設定では、332のキュレートされたサンプルと1つのGPUで3~5分計算すると、完全な精度のベースラインに向かって4ビットの重み計算が引き起こされる。
論文 参考訳(メタデータ) (2025-05-16T12:11:40Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - Identifying Sensitive Weights via Post-quantization Integral [27.722950830077444]
後方感度をきめ細かな方法で推定するための後量子化積分(PQI)を提案する。
また、ReQuantも提案しています。ReQuantはシンプルで強力なフレームワークで、主に2- and-Sparseのdetachコンポーネントで構成されています。
その結果、ReQuantは、QTIPを用いたLlama 3.2 1Bに対して2.66パープレキシティゲインを顕著に向上させ、最先端のポストトレーニング量子化手法を向上することが示された。
論文 参考訳(メタデータ) (2025-02-28T07:04:19Z) - GWQ: Gradient-Aware Weight Quantization for Large Language Models [56.22507677736051]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットに圧縮することで、リソース制約のあるデバイスにデプロイできる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。