論文の概要: SAQ: Pushing the Limits of Vector Quantization through Code Adjustment and Dimension Segmentation
- arxiv url: http://arxiv.org/abs/2509.12086v1
- Date: Mon, 15 Sep 2025 16:14:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.389784
- Title: SAQ: Pushing the Limits of Vector Quantization through Code Adjustment and Dimension Segmentation
- Title(参考訳): SAQ: コード調整と次元分割によるベクトル量子化の限界を押し上げる
- Authors: Hui Li, Shiyuan Deng, Xiao Yan, Xiangyu Zhi, James Cheng,
- Abstract要約: 近似Nearest Neighbor Search (ANNS) は、検索エンジン、レコメンダシステム、LLMのためのRAGなどのアプリケーションにおいて重要な役割を果たす。
ベクトル量子化(VQ)は、一般に空間オーバーヘッドを減らし、距離計算を加速するために用いられる。
符号化効率と量子化精度のバランスをとるために,SAQと呼ばれる新しいVQ手法を提案する。
拡張RabitQと比較して,SAQは最大80%の量子化誤差を低減し,符号化速度を80倍以上に高速化することを示す。
- 参考スコア(独自算出の注目度): 13.282924439395204
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Approximate Nearest Neighbor Search (ANNS) plays a critical role in applications such as search engines, recommender systems, and RAG for LLMs. Vector quantization (VQ), a crucial technique for ANNS, is commonly used to reduce space overhead and accelerate distance computations. However, despite significant research advances, state-of-the-art VQ methods still face challenges in balancing encoding efficiency and quantization accuracy. To address these limitations, we propose a novel VQ method called SAQ. To improve accuracy, SAQ employs a new dimension segmentation technique to strategically partition PCA-projected vectors into segments along their dimensions. By prioritizing leading dimension segments with larger magnitudes, SAQ allocates more bits to high-impact segments, optimizing the use of the available space quota. An efficient dynamic programming algorithm is developed to optimize dimension segmentation and bit allocation, ensuring minimal quantization error. To speed up vector encoding, SAQ devises a code adjustment technique to first quantize each dimension independently and then progressively refine quantized vectors using a coordinate-descent-like approach to avoid exhaustive enumeration. Extensive experiments demonstrate SAQ's superiority over classical methods (e.g., PQ, PCA) and recent state-of-the-art approaches (e.g., LVQ, Extended RabitQ). SAQ achieves up to 80% reduction in quantization error and accelerates encoding speed by over 80x compared to Extended RabitQ.
- Abstract(参考訳): 近似Nearest Neighbor Search (ANNS) は、検索エンジン、レコメンダシステム、LLMのためのRAGなどのアプリケーションにおいて重要な役割を果たす。
ベクトル量子化(VQ)はANNSにとって重要な手法であり、空間オーバーヘッドの低減と距離計算の高速化に一般的に用いられている。
しかし、大きな研究進歩にもかかわらず、最先端のVQ手法は符号化効率と量子化精度のバランスをとる上で依然として課題に直面している。
これらの制約に対処するため,SAQと呼ばれる新しいVQ手法を提案する。
精度を向上させるため、SAQはPCA投影ベクトルをその次元に沿ってセグメントに戦略的に分割する新しい次元分割手法を採用した。
先行次元セグメントを大きな大きさで優先順位付けすることで、SAQは高インパクトセグメントにより多くのビットを割り当て、利用可能な空間クォータの使用を最適化する。
次元分割とビット割り当てを最適化し,最小量子化誤差を最小化するために,効率的な動的プログラミングアルゴリズムを開発した。
ベクトル符号化を高速化するため、SAQは、まず各次元を独立に定量化し、次に座標-蛍光的アプローチを用いて量子化されたベクトルを漸進的に洗練し、全列挙を避けるためのコード調整手法を考案した。
大規模な実験は、SAQが古典的手法(例えば、PQ、PCA)と最近の最先端手法(例えば、LVQ、拡張RabitQ)よりも優れていることを示す。
SAQは量子化誤差を最大80%低減し、拡張RabitQと比較して符号化速度を80倍以上に高速化する。
関連論文リスト
- ZeroQAT: Your Quantization-aware Training but Efficient [53.25965863436039]
量子化は、大規模言語モデル(LLM)のデプロイメントコストを削減する効果的な手法である。
既存の低ビットPTQ法は, 局所再構成目標と下流性能の相違による累積誤差の伝搬と誤調整が生じるため, 精度劣化に悩まされる。
我々は,ゼロオーダー最適化に基づくQATフレームワークZeroQATを提案する。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - The Geometry of LLM Quantization: GPTQ as Babai's Nearest Plane Algorithm [52.89358421626026]
GPTQは、LLMスケールでのワンショットポストトレーニング量子化の標準手法の1つとして登場した。
GPTQは古典的最近ベクトル問題に対するババイの最も近い平面アルゴリズムと数学的に同一であることを示す。
論文 参考訳(メタデータ) (2025-07-24T16:22:18Z) - PCDVQ: Enhancing Vector Quantization for Large Language Models via Polar Coordinate Decoupling [53.91873442457923]
ベクトル量子化(VQ)は、非常に低ビット(2ビットでも)で精度の高いこの問題に対する一般的な解決策である。
本稿では,効率的なVQフレームワークであるPola Coordinate Decoupled Vector Quantization (PCDVQ)を提案する。
実験の結果、PCDVQは2ビットレベルのベースライン法を少なくとも1.5%ゼロショット精度で上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-05T08:58:58Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - MVQ:Towards Efficient DNN Compression and Acceleration with Masked Vector Quantization [8.057807176915896]
限られた数のコードワードで重要な重みをよりよく近似することを目的としたMVQと呼ばれる新しいアプローチが提案されている。
本アルゴリズムは,画像分類,オブジェクト検出,セグメンテーションタスクの様々なモデルで検証される。
ASIC評価では, MVQ加速器はエネルギー効率を2.3$times$で向上し, ベースEWS加速器と比較してサイストリックアレイのサイズを55%削減する。
論文 参考訳(メタデータ) (2024-12-13T16:30:35Z) - HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
一般的な解決策は、VQ変分オートエンコーダ(VQVAE)にベクトル量子化(VQ)を採用することである。
本稿では,双曲型多相ロジスティック回帰(MLR)問題としてVQを定式化する新しい手法であるHyperVQを紹介する。
本実験は,HyperVQが従来のVQに比較し,識別性能を上回りながら,生成・再構成タスクに適合することを示した。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Soft Convex Quantization: Revisiting Vector Quantization with Convex
Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。
SCQは微分凸最適化(DCO)層のように機能する。
CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-10-04T17:45:14Z) - CSMPQ:Class Separability Based Mixed-Precision Quantization [9.005098065862411]
CSMPQと呼ばれる新しい混合精度量子化法を提案する。
具体的には,階層的特徴写像のクラス分離性を測定するために,自然言語処理(NLP)で広く用いられているTF-IDFメトリックを導入する。
CSMPQは、反復的なプロセスがなければ、最先端の量子化法よりも優れた圧縮トレードオフを実現する。
論文 参考訳(メタデータ) (2022-12-20T12:52:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。