論文の概要: Binary Quadratic Quantization: Beyond First-Order Quantization for Real-Valued Matrix Compression
- arxiv url: http://arxiv.org/abs/2510.18650v1
- Date: Tue, 21 Oct 2025 13:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.719881
- Title: Binary Quadratic Quantization: Beyond First-Order Quantization for Real-Valued Matrix Compression
- Title(参考訳): 二項二次量子化:実値行列圧縮のための一階量子化を超えて
- Authors: Kyo Kuroki, Yasuyuki Okoshi, Thiem Van Chu, Kazushi Kawamura, Masato Motomura,
- Abstract要約: 本稿では,新しい行列量子化手法であるバイナリ二次量子化(BQQ)を提案する。
本稿では,BQQがメモリ効率と再構成誤差のトレードオフを一貫して達成していることを示す。
提案手法は,ImageNetデータセット上で2.2%,59.1%,最先端のPTQ法より優れている。
- 参考スコア(独自算出の注目度): 2.854451361373021
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes a novel matrix quantization method, Binary Quadratic Quantization (BQQ). In contrast to conventional first-order quantization approaches, such as uniform quantization and binary coding quantization, that approximate real-valued matrices via linear combinations of binary bases, BQQ leverages the expressive power of binary quadratic expressions while maintaining an extremely compact data format. We validate our approach with two experiments: a matrix compression benchmark and post-training quantization (PTQ) on pretrained Vision Transformer-based models. Experimental results demonstrate that BQQ consistently achieves a superior trade-off between memory efficiency and reconstruction error than conventional methods for compressing diverse matrix data. It also delivers strong PTQ performance, even though we neither target state-of-the-art PTQ accuracy under tight memory constraints nor rely on PTQ-specific binary matrix optimization. For example, our proposed method outperforms the state-of-the-art PTQ method by up to 2.2\% and 59.1% on the ImageNet dataset under the calibration-based and data-free scenarios, respectively, with quantization equivalent to 2 bits. These findings highlight the surprising effectiveness of binary quadratic expressions for efficient matrix approximation and neural network compression.
- Abstract(参考訳): 本稿では,新しい行列量子化手法であるBinary Quadratic Quantization (BQQ)を提案する。
一様量子化や二項符号化量子化のような従来の一階量子化アプローチとは対照的に、BQQは二項二項表現の表現力を活用しながら、非常にコンパクトなデータ形式を維持している。
行列圧縮ベンチマークと学習後量子化(PTQ)の2つの実験により,事前学習したビジョントランスフォーマーモデルを用いた手法の有効性を検証した。
実験結果から,BQQは従来よりもメモリ効率と再構成誤差のトレードオフが優れていることがわかった。
また、厳密なメモリ制約下ではPTQの精度を目標とせず、PTQ固有のバイナリマトリックス最適化にも依存していないにもかかわらず、強力なPTQ性能を提供する。
例えば,提案手法は,キャリブレーションベースおよびデータフリーシナリオ下で,ImageNetデータセット上でそれぞれ2.2\%と59.1%の精度でPTQ法を上回り,量子化は2ビットに相当する。
これらの結果は,効率的な行列近似とニューラルネットワーク圧縮のための2次二次表現の驚くべき有効性を示している。
関連論文リスト
- Addition is almost all you need: Compressing neural networks with double binary factorization [0.0]
二重二元因子化(DBF)は、密度重み行列を2つの二元行列の積に分解する新しい方法である。
DBFは2値表現の効率性を保ちつつ、最先端の手法と競合する圧縮率を達成する。
重量あたりの2ビットでは、DBFはQuIP#やQTIPのような最高の量子化手法と競合する。
論文 参考訳(メタデータ) (2025-05-16T10:07:36Z) - GPTAQ: Efficient Finetuning-Free Quantization for Asymmetric Calibration [21.474315621757594]
GPTAQは大規模トランスアーキテクチャを圧縮するための新しい微調整不要量子化法である。
各層を独立に校正する従来のGPTQ法とは異なり、我々は常に量子化層の出力と完全精度モデルの正確な出力とを一致させる。
GPTAQは実装が容易で、GPTQよりも20行のコードを使用するだけで、低ビット量子化下での性能を向上させることができる。
論文 参考訳(メタデータ) (2025-04-03T15:30:43Z) - QET: Enhancing Quantized LLM Parameters and KV cache Compression through Element Substitution and Residual Clustering [5.363038867793461]
量子化前後の行列間の距離を最小化するために、量子化誤差最小化問題を定式化する。
行列量子化は、Large Language Models (LLM) 重み量子化、ベクトルデータベース、KVキャッシュ量子化、グラフ圧縮、画像圧縮など、様々なアプリケーションにおいて重要である。
行列要素の局所順序性を利用してQEM問題に対処する量子エンタングルメントツリー(QET)を提案する。
論文 参考訳(メタデータ) (2024-07-04T05:13:58Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Gradient-descent quantum process tomography by learning Kraus operators [63.69764116066747]
離散および連続変数の量子システムに対して量子プロセストモグラフィー(QPT)を行う。
我々は、クラウス作用素を得るために、最適化中にいわゆるスティーフェル多様体に対して制約付き勾配-退化(GD)アプローチを用いる。
GD-QPTは、2量子ランダムプロセスを持つベンチマークにおいて、圧縮センシング(CS)と投影最小二乗QPT(PLS)の両方のパフォーマンスと一致する。
論文 参考訳(メタデータ) (2022-08-01T12:48:48Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。