Fugu-MT 論文翻訳(概要): SSVQ: Unleashing the Potential of Vector Quantization with Sign-Splitting

論文の概要: SSVQ: Unleashing the Potential of Vector Quantization with Sign-Splitting

arxiv url: http://arxiv.org/abs/2503.08668v1
Date: Tue, 11 Mar 2025 17:52:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 22:35:51.92963
Title: SSVQ: Unleashing the Potential of Vector Quantization with Sign-Splitting
Title（参考訳）: SSVQ: 署名分割によるベクトル量子化の可能性
Authors: Shuaiting Li, Juncan Deng, Chenxuan Wang, Kedong Xu, Rongtao Deng, Hong Gu, Haibin Shen, Kejie Huang,
Abstract要約: 本稿では,新たなVQパラダイムであるSign-Splitting VQ(SSVQ)を紹介する。 SSVQは従来のVQに比べて圧縮精度のトレードオフがかなり優れていることを示す。
参考スコア（独自算出の注目度）: 7.663974702092357
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vector Quantization (VQ) has emerged as a prominent weight compression technique, showcasing substantially lower quantization errors than uniform quantization across diverse models, particularly in extreme compression scenarios. However, its efficacy during fine-tuning is limited by the constraint of the compression format, where weight vectors assigned to the same codeword are restricted to updates in the same direction. Consequently, many quantized weights are compelled to move in directions contrary to their local gradient information. To mitigate this issue, we introduce a novel VQ paradigm, Sign-Splitting VQ (SSVQ), which decouples the sign bit of weights from the codebook. Our approach involves extracting the sign bits of uncompressed weights and performing clustering and compression on all-positive weights. We then introduce latent variables for the sign bit and jointly optimize both the signs and the codebook. Additionally, we implement a progressive freezing strategy for the learnable sign to ensure training stability. Extensive experiments on various modern models and tasks demonstrate that SSVQ achieves a significantly superior compression-accuracy trade-off compared to conventional VQ. Furthermore, we validate our algorithm on a hardware accelerator, showing that SSVQ achieves a 3$\times$ speedup over the 8-bit compressed model by reducing memory access.
Abstract（参考訳）: ベクトル量子化(VQ)は、特に極端な圧縮シナリオにおいて、様々なモデルにおける均一な量子化よりもかなり低い量子化誤差を示す顕著な重み圧縮技術として登場した。しかし、微調整時の有効性は圧縮フォーマットの制約によって制限され、同じコードワードに割り当てられた重みベクトルは同じ方向の更新に制限される。その結果、多くの量子化重みは局所勾配情報と反対方向に移動せざるを得なくなる。この問題を軽減するために、コードブックから重みを分離する新しいVQパラダイム、Sign-Splitting VQ(SSVQ)を導入する。提案手法では,非圧縮重みの符号ビットを抽出し,全正重みのクラスタリングと圧縮を行う。次に、符号ビットの潜在変数を導入し、符号とコードブックの両方を共同で最適化する。さらに,学習可能なサインに対して,学習安定性を確保するための段階的な凍結戦略を実装した。様々な現代的なモデルやタスクに対する大規模な実験により、SSVQは従来のVQに比べてはるかに優れた圧縮精度のトレードオフを達成することが示された。さらに,本アルゴリズムをハードウェアアクセラレータ上で検証した結果,SSVQは8ビット圧縮モデルよりも3$\times$の高速化を実現し,メモリアクセスを低減した。

関連論文リスト

Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
CondiQuant: Condition Number Based Low-Bit Quantization for Image Super-Resolution [59.91470739501034]
画像超解像のための条件数に基づく低ビットポストトレーニング量子化であるCondiQuantを提案する。 CondiQuantは、計算オーバーヘッドを伴わずに、既存の最先端のポストトレーニング量子化手法よりも精度が高いことを示す。
論文参考訳（メタデータ） (2025-02-21T14:04:30Z)
Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。 IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文参考訳（メタデータ） (2024-12-03T18:59:10Z)
QTIP: Quantization with Trellises and Incoherence Processing [29.917017118524246]
後トレーニング量子化(PTQ)は、LLMのメモリフットプリントを削減する。最近の最先端のPTQアプローチでは、ベクトル量子化(VQ)を使用して複数の重みを同時に定量化している。超高次元量子化を実現するためにトレリス符号化量子化(TCQ)を用いるQTIPを導入する。
論文参考訳（メタデータ） (2024-06-17T06:03:13Z)
HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
一般的な解決策は、VQ変分オートエンコーダ(VQVAE)にベクトル量子化(VQ)を採用することである。本稿では,双曲型多相ロジスティック回帰(MLR)問題としてVQを定式化する新しい手法であるHyperVQを紹介する。本実験は,HyperVQが従来のVQに比較し,識別性能を上回りながら,生成・再構成タスクに適合することを示した。
論文参考訳（メタデータ） (2024-03-18T03:17:08Z)
GPTVQ: The Blessing of Dimensionality for LLM Quantization [16.585681547799762]
ニューラルネットワーク量子化のサイズと精度のトレードオフは、量子化次元を増大させることで大幅に改善できることを示す。 GPTVQ法は,大規模言語モデル(LLM)によく適応するベクトル量子化(VQ)の高速化手法である。本手法は,各層ごとの出力再構成MSEのヘシアンからの情報を用いて,残りの未定量重みを更新した1列以上の列の量子化をインターリーブする。
論文参考訳（メタデータ） (2024-02-23T13:39:16Z)
Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文参考訳（メタデータ） (2024-01-15T15:54:54Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Soft Convex Quantization: Revisiting Vector Quantization with Convex Optimization [40.1651740183975]
ベクトル量子化(VQ)の直接代用として,ソフト凸量子化(SCQ)を提案する。 SCQは微分凸最適化(DCO)層のように機能する。 CIFAR-10, GTSRB, LSUNデータセット上での有効性を示す。
論文参考訳（メタデータ） (2023-10-04T17:45:14Z)
Finite Scalar Quantization: VQ-VAE Made Simple [26.351016719675766]
我々は、VQ-VAEの潜在表現におけるベクトル量子化(VQ)を、有限スカラー量子化(FSQ)と呼ばれる単純なスキームで置き換えることを提案する。それぞれの次元と値の数を適切に選択することにより、VQと同じコードブックサイズが得られる。画像生成にはFSQとMaskGIT,深度推定にはUViMを用いる。
論文参考訳（メタデータ） (2023-09-27T09:13:40Z)
Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。 VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文参考訳（メタデータ） (2023-07-17T06:14:19Z)
LVQAC: Lattice Vector Quantization Coupled with Spatially Adaptive Companding for Efficient Learned Image Compression [24.812267280543693]
本稿では,空間適応型コンパウンディング(LVQAC)マッピングを併用した新しい格子ベクトル量子化方式を提案する。エンドツーエンドのCNN画像圧縮モデルでは、一様量子化器をLVQACで置き換えることにより、モデルの複雑さを大幅に増大させることなく、より優れたレート歪み性能が得られる。
論文参考訳（メタデータ） (2023-03-25T23:34:15Z)
Image Compression with Product Quantized Masked Image Modeling [44.15706119017024]
最近のニューラル圧縮法は、人気のあるハイパープライアフレームワークに基づいている。 Scalar Quantizationに依存しており、非常に強力な圧縮パフォーマンスを提供します。これは、ベクトル量子化が一般的に用いられる画像生成と表現学習の最近の進歩とは対照的である。
論文参考訳（メタデータ） (2022-12-14T17:50:39Z)
Kernel Quantization for Efficient Network Compression [59.55192551370948]
Kernel Quantization(KQ)は、事前訓練された全精度畳み込みニューラルネットワーク(CNN)モデルを、大幅なパフォーマンス損失のない低精度バージョンに効率的に変換することを目的としている。重み付けからフィルタプルーニングへの進化に触発され,カーネルレベルと重み付けレベルの両方で定量化することを提案する。 ImageNet分類タスクの実験では、KQはVGGとResNet18でそれぞれ平均1.05ビットと1.62ビットを必要とし、畳み込み層の各パラメータを表す。
論文参考訳（メタデータ） (2020-03-11T08:00:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。