論文の概要: RSAVQ: Riemannian Sensitivity-Aware Vector Quantization for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.01240v1
- Date: Wed, 24 Sep 2025 01:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.743616
- Title: RSAVQ: Riemannian Sensitivity-Aware Vector Quantization for Large Language Models
- Title(参考訳): RSAVQ:大規模言語モデルのためのリーマン感性を考慮したベクトル量子化
- Authors: Zukang Xu, Xing Hu, Qiang Wu, Dawei Yang,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
指数関数的に増加するパラメータは、リソース制約のあるデバイスへの展開に重大な課題をもたらす。
LLMの超低ビット量子化を実現する新しいフレームワークであるRSAVQを提案する。
- 参考スコア(独自算出の注目度): 17.273189597394072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable performance across a wide range of natural language processing tasks. However, their exponentially increasing parameters pose significant challenges for deployment on resource-constrained devices. Vector Quantization (VQ) shows great promise for low-bit quantization (e.g., 2 to 4 bits), but existing work faces two key challenges: unconstrained direction error and suboptimal bit allocation. In this paper, we propose RSAVQ, a novel VQ framework to enhance extremely low-bit quantization for LLMs. RSAVQ introduces two geometry-driven innovations that effectively mitigate above limitations: (1) Error Direction Sensitivity Guidance (EDSG), which leverages the Fisher Information Matrix (FIM)-induced Riemannian metric to project quantization errors onto low-sensitivity directions in the parameter space. Specifically, this projection is performed along the negative natural gradient direction, which effectively suppresses error expansion. (2) Weight Channel Sensitivity Guidance (WCSG) , which constructs a channel-wise sensitivity metric via FIM curvature analysis to dynamically guide bit resource allocation. The approach facilitates a globally optimal quantization solution within prescribed bit constraints. Experiments demonstrate that RSAVQ outperforms existing methods for LLMs. For example, in 2-bit quantization of LLaMA-3 8B, RSAVQ leads baselines like VPTQ and QuIP# by 0.4 in perplexity (PPL) and 1.5 in zero-shot accuracy. This work offers a practical solution for constrained environments and a theoretical bridge between information geometry and the quantization of neural networks, advancing efficient deep learning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
しかし、これらの指数関数的に増加するパラメータは、リソース制限されたデバイスへの展開に重大な課題をもたらす。
ベクトル量子化(VQ)は、低ビット量子化(例えば、2ビットから4ビット)に大いに期待できるが、既存の作業は2つの大きな課題に直面している。
本稿では,LLMの超低ビット量子化を実現する新しいVQフレームワークであるRSAVQを提案する。
1) パラメータ空間内の低感度方向への量子化誤差を投影するためにフィッシャー情報行列(FIM)誘導リーマン計量を利用する誤差方向感度誘導(EDSG)。
具体的には、この投影は負の自然勾配方向に沿って行われ、エラー展開を効果的に抑制する。
2) 重チャネル感度誘導(WCSG)は、FIM曲率解析によりチャネルワイズ感度測定値を構築し、ビットリソース割り当てを動的に誘導する。
このアプローチは、所定のビット制約内で、グローバルに最適な量子化ソリューションを促進する。
実験により、RSAVQはLLMの既存の手法よりも優れていることが示された。
例えば、LLaMA-3 8Bの2ビット量子化では、RSAVQはVPTQやQuIP#のようなベースラインをパープレキシティ(PPL)で0.4、ゼロショット精度で1.5でリードする。
この研究は、制約された環境に対する実践的な解決策と、情報幾何学とニューラルネットワークの量子化の間の理論的ブリッジを提供し、効率的なディープラーニングを促進する。
関連論文リスト
- LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Image and Video Generation [41.66473889057111]
Diffusion Transformer (DiTs) は、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成において、優れたパフォーマンスを実現している。
DiTsの高計算コストと大きなパラメータサイズは、リソース制約のあるシナリオでの利用に重大な課題をもたらす。
本稿では,映像・映像生成のための学習後量子化フレームワークLRQ-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:16:11Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - QERA: an Analytical Framework for Quantization Error Reconstruction [12.110441045050223]
重みを極めて低い精度に定量化することへの関心が高まり、結果として生じる誤差を低ランクで高精度なエラー再構成項で相殺する。
量子化と低ランク近似の組み合わせは、アダプタベースのパラメータ効率の微調整法の両方で人気がある。
本稿では,QERA(Quantization Error Reconstruction Analysis)という解析フレームワークを定式化し,その問題に対するクローズドフォームのソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-08T13:37:34Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。