論文の概要: High-Rate Quantized Matrix Multiplication: Theory and Practice
- arxiv url: http://arxiv.org/abs/2601.17187v1
- Date: Fri, 23 Jan 2026 21:32:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.400791
- Title: High-Rate Quantized Matrix Multiplication: Theory and Practice
- Title(参考訳): 高レート量子化行列乗法の理論と実践
- Authors: Or Ordentlich, Yury Polyanskiy,
- Abstract要約: 本研究では,量子化行列乗法(MatMul)の問題点について検討する。
1) 両行列を量子化(重+量子化)しなければならないジェネリック・マトマルと,2) 第二行列が共分散行列$_X$でのみ知られている重みのみの量子化である。
- 参考スコア(独自算出の注目度): 29.75700570685703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work investigates the problem of quantized matrix multiplication (MatMul), which has become crucial for the efficient deployment of large language models (LLMs). We consider two settings: 1) Generic MatMul, where both matrices must be quantized (weight+activation quantization); and 2) weight-only quantization, where the second matrix is only known through covariance matrix $Σ_X$ of its columns. For each setting, we first review the fundamental information-theoretic tradeoff between quantization rate and distortion (high-rate theory), and then analyze the performance of several popular quantization schemes, comparing them to these fundamental limits. Specifically, we discuss rate loss (compared to information theoretic optima) of absmax INT and floating-point (FP) quantization, for which we also derive remarkably accurate heuristic approximations. Weight-only quantization is related to the problem of weighted mean squared error (WMSE) source coding, whose classical (reverse) waterfilling solution dictates how one should distribute rate between coordinates of the vector. We show how waterfilling can be used to improve practical LLM quantization algorithms (GPTQ), which at present allocate rate equally. This new scheme (termed ``WaterSIC'') only uses scalar INT quantizers, but its high-rate performance is basis free (it depends only on the determinant of $Σ_X$ and, thus, unlike existing schemes, is immune to applying random rotations) and is within a multiplicative factor of $\frac{2πe}{12}$ (or 0.25 bit/entry) of the information-theoretic distortion limit (!). GPTQ's performance is affected by the choice of basis, but for a random rotation and actual $Σ_X$ from Llama-3-8B we find GPTQ to be within 0.1 bit (depending on the layer type) of WaterSIC, suggesting that GPTQ with random rotation is also near optimal (for high-rate quantization).
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)の効率的な展開に欠かせない量子化行列乗法(MatMul)の問題について検討する。
私たちは2つの設定を考えます。
1) 両方の行列を定量化しなければならないジェネリックマットミュル(重み+アクティベーション量子化)、及び
2 番目の行列は、その列の共分散行列 $Σ_X$ によってのみ知られている。
各設定について、まず量子化率と歪み(高次理論)の基本的な情報理論のトレードオフを概観し、次にいくつかの一般的な量子化スキームの性能を分析し、これらの基本的な限界と比較する。
具体的には、absmax INTと浮動小数点(FP)量子化の速度損失(情報理論の最適性と比較)について論じる。
重み付き平均二乗誤差(WMSE)の音源符号化の問題は、古典的な(逆)給水法でベクトルの座標間での速度の分配を規定している。
本稿では,現在等しく割り当てられている実用的なLCM量子化アルゴリズム (GPTQ) を改良するために,給水をどのように利用できるかを示す。
この新しいスキーム(`WaterSIC'' と表記される)はスカラーINT量子化器のみを使用するが、そのハイレート性能は基底自由であり(これは$Σ_X$の行列式にのみ依存し、従って既存のスキームとは異なりランダムな回転を適用できない)、情報理論の歪み極限(!)の$\frac{2πe}{12}$(または 0.25 bit/entry)の乗法係数の範囲内である。
GPTQのパフォーマンスはベースの選択によって影響を受けるが、Llama-3-8Bのランダム回転と実際の$Σ_X$の場合、GPTQはWaterSICの0.1ビット以内(層型に依存している)であることが判明し、乱回転を持つGPTQも最適に近い(高速量子化)ことが示唆された。
関連論文リスト
- Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment [15.802372921412198]
我々は,大言語モデル (LLM) の重み付けを,校正データはほとんどあるいは全く使わずに定量化する,PTQ(height-only post-training Quantization)について検討した。
まず、与えられたビット予算下でのガウス化重みに対する情報理論的に最適なビット割り当てを導出し、ガウスの歪み率境界に近づく微細な分数ビット量子化器が、ほぼ最適量子化性能を達成するために不可欠であることを明らかにした。
論文 参考訳(メタデータ) (2025-09-24T15:10:44Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - QuIP: 2-Bit Quantization of Large Language Models With Guarantees [44.212441764241]
本研究では,大規模言語モデル(LLM)における学習後のパラメータ量子化について研究する。
Incoherence Processing (QuIP) を用いた量子化を導入する。これは、$textitincoherent$ weight と Hessian matrices から量子化が恩恵を受けるという知見に基づく新しい方法である。
論文 参考訳(メタデータ) (2023-07-25T07:44:06Z) - Randomized semi-quantum matrix processing [0.0]
汎用行列関数をシミュレートするためのハイブリッド量子古典的フレームワークを提案する。
この方法は、対象関数のチェビシェフ近似上のランダム化に基づいている。
コストのかかるパラメータの2次高速化を含む,平均深度に対する利点を実証する。
論文 参考訳(メタデータ) (2023-07-21T18:00:28Z) - End-to-end resource analysis for quantum interior point methods and portfolio optimization [63.4863637315163]
問題入力から問題出力までの完全な量子回路レベルのアルゴリズム記述を提供する。
アルゴリズムの実行に必要な論理量子ビットの数と非クリフォードTゲートの量/深さを報告する。
論文 参考訳(メタデータ) (2022-11-22T18:54:48Z) - Quantum algorithms for grid-based variational time evolution [36.136619420474766]
本稿では,第1量子化における量子力学の実行のための変分量子アルゴリズムを提案する。
シミュレーションでは,従来観測されていた変動時間伝播手法の数値不安定性を示す。
論文 参考訳(メタデータ) (2022-03-04T19:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。