論文の概要: Hurwitz Quaternion Multiplicative Quantization for KV Cache Compression
- arxiv url: http://arxiv.org/abs/2605.27646v1
- Date: Tue, 26 May 2026 20:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.498534
- Title: Hurwitz Quaternion Multiplicative Quantization for KV Cache Compression
- Title(参考訳): KVキャッシュ圧縮のためのHurwitz四元乗算量子化
- Authors: Kabir Swain, Sijie Han, Daniel Karl I. Weidele, Mauro Martino, David Cox, Antonio Torralba,
- Abstract要約: HQMQ は K または V の 4 つの要素チャンクを四元数として扱い、その単位方向をエフェクティブ $q_p cdot q_s$ に量子化する。
HQMQは最大5.05タイムのKV圧縮を提供し、Llama-3-70B 128kのコンテクストキャッシュを43GBから8.5GBに縮小する。
- 参考スコア(独自算出の注目度): 19.924689669010117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose \textbf{Hurwitz Quaternion Multiplicative Quantization (HQMQ)}, a \textbf{calibration-free} method for KV cache compression of large language models. HQMQ treats each 4-element chunk of K or V as a quaternion and quantizes its unit direction to the \emph{product} $q_p \cdot q_s$, where $q_p$ ranges over the 24-element Hurwitz group $2T$ (the 24 vertices of the 24-cell on $S^3$, pairwise angle $60^\circ$) and $q_s$ ranges over a per-(layer, head) secondary codebook of $S$ \emph{random} unit quaternions. The multiplicative composition yields $24S$ effective codewords at $S$ stored parameters; random initialization suffices because left-multiplication is an $S^3$ isometry, so seeded codebooks vary in end-task ppl by $<1.5\%$. A per-batch median-multiplier outlier extraction step ($C{=}3$, no calibration) handles modern outlier-heavy architectures. We evaluate on five modern open models: Mistral-7B (dense MHA), Llama-3-8B and Qwen2.5-7B and Qwen3-8B (dense GQA), and gpt-oss-20b (sparse MoE). On Mistral-7B and Qwen3-8B, HQMQ matches fp16 within $0.02$--$0.03$ ppl points at $\sim$5 bits. On Qwen2.5-7B and Qwen3-8B, where naive int4 collapses to $10^4{+}$ ppl, HQMQ + Med3$\times$ recovers fp16 quality within $0.02$--$0.10$ ppl points at $\sim$5 bits. HQMQ Pareto-dominates naive int by $3$--$1900\times$ at matched bits across all five models, and downstream zero-shot accuracy matches fp16 at $3.79$ bits on Mistral. Against the strongest calibrated KV-quantization baseline, HQMQ at $3.79$ bits matches KIVI-4 ($\sim 4.5$ bits) within ${\sim}1$ pt on CoQA, $0.6$ pts on TruthfulQA, and $2.3$ pts on GSM8K, at $16\%$ fewer bits and without a calibration pass. At the storage level, HQMQ delivers up to $5.05\times$ KV compression, shrinking a Llama-3-70B 128k-context cache from 43 GB to 8.5 GB.
- Abstract(参考訳): そこで我々は,大言語モデルのKVキャッシュ圧縮のための<textbf{Hurwitz Quaternion Multiplicative Quantization (HQMQ)}法を提案する。
HQMQ は K または V の各 4 要素チャンクを四元数として扱い、その単位方向を \emph{product} $q_p \cdot q_s$, where $q_p$ は 24 要素の Hurwitz グループ $2T$ (24 セルの対角 $60^\circ$) と $q_s$ の単位四元数に対して$S$ \emph{random} の二次コードブックに量子化する。
左乗算が$S^3$アイソメトリであるため、シードコードブックのエンドタスク ppl は$<1.5\%$である。
C{=}3$, no calibration) は、現代のoutlier-heavyアーキテクチャを扱う。
MHA, Llama-3-8B, Qwen2.5-7B, Qwen3-8B (dense GQA), gpt-oss-20b (sparse MoE。
Mistral-7B と Qwen3-8B では、HQMQ は fp16 を$0.02$--0.03$ ppl と$\sim$5 bits で一致させる。
Qwen2.5-7BとQwen3-8Bでは、nt4が10^4{+}$ ppl、HQMQ + Med3$\times$が$0.02$-$0.10$ pplでfp16の品質を回復する。
HQMQ Pareto-は、5つのモデルでマッチしたビットで3$--$1900\times$で、下流のゼロショット精度はMistralで3.79$ビットでfp16と一致する。
最強の校正KV量子化ベースラインに対して、HQMQ は 3.79$bits で KIVI-4 (\sim 4.5$ bits) で、CoQA で${\sim}1$pts、TruthfulQAで$0.6$pts、GSM8Kで$2.3$pts で$16\% でキャリブレーションパスなしで KIVI-4 (\sim 4.5$ bits) と一致している。
ストレージレベルでは、HQMQは最大5.05\times$ KV圧縮を提供し、Llama-3-70B 128kのコンテキストキャッシュを43GBから8.5GBに縮小する。
関連論文リスト
- An IQP Born Machine for Calorimeter Image Generation at 64 Qubits with Compiled-IQP Deployment [0.0]
我々は、実際の高エネルギー物理カロリーのシャワー画像に64ドルキュービットで即時量子時間(IQP)ボーンマシンを訓練する。
トレーニングされたモデルを1つのサンプリングハードIQP回路にコンパイルし、量子展開を行う。
論文 参考訳(メタデータ) (2026-05-26T22:18:55Z) - When Quantization Is Free: An int4 KV Cache That Outruns fp16 on Apple Silicon [0.0]
KVキャッシュ量子化は、品質-レイテンシトレードオフとしてフレーム化される。
Apple Siliconの統一メモリにインセンティブを与えています。
論文 参考訳(メタデータ) (2026-05-07T05:44:39Z) - ZenBrain: A Neuroscience-Inspired 7-Layer Memory Architecture for Autonomous AI Systems [51.56484100374058]
LongMemEval-500では、ZenBrainは長いコンテキストのオラクルのバイナリ・ジャッジの精度を4.5pp以内と一致させる。
ZenBrainは7層の神経科学にインスパイアされたメモリアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-26T20:39:19Z) - High-Girth Regular Quantum LDPC Codes from Affine-Coset Structures [0.0]
長さ512$CのCalderbank-Shor-Steane基底行列対から量子低密度パリティチェック符号群を構築する。
ベースペアは、既知のSPC(3)製品CSSコードと等価である。
論文 参考訳(メタデータ) (2026-04-22T17:59:08Z) - Latent Phase-Shift Rollback: Inference-Time Error Correction via Residual Stream Monitoring and KV-Cache Steering [4.032680910442999]
大規模な言語モデルは、世代中頃の保存不可能な推論エラーを犯す。
我々は、$textbfLatent Phase-Shift Rollback$ (LPSR)を紹介する。
各生成段階において、臨界層リクリットで残留流をモニタリングし、コサイン相似性$+$エントロピー二重ゲートを介して急激な方向逆転(位相シフト)を検出する。
微調整、勾配計算、追加のフォワードパスは不要である。
論文 参考訳(メタデータ) (2026-04-20T17:53:33Z) - IsoQuant: Hardware-Aligned SO(4) Isoclinic Rotations for LLM KV Cache Compression [0.4496256885343706]
四元数代数に基づくブロックワイズ回転フレームワークと、SO(4)$の等クリニック分解を提案する。
IsoQuantは、平均的なカーネルレベルのスピードアップを4.5times$--$4.7times$ over RotorQuantで達成し、ピーク時のスピードアップは6times$以上である。
論文 参考訳(メタデータ) (2026-03-30T13:37:45Z) - Approximating the operator norm of local Hamiltonians via few quantum states [53.16156504455106]
複素ヒルベルト空間上で作用するエルミート作用素 $A$ を 2n$ とする。
A$ がパウリ拡大において小さな次数を持つとき、あるいは言い換えれば、$A$ は局所 $n$-量子ハミルトニアンである。
A$ が $d$-local, textiti.e., $deg(A)le d$ であるときは常に、次の離散化型不等式を持つことを示す。
論文 参考訳(メタデータ) (2025-09-15T14:26:11Z) - Algebraic Aspects of Boundaries in the Kitaev Quantum Double Model [77.34726150561087]
我々は、Ksubseteq G$ の部分群に基づく境界の体系的な扱いを、バルクの Kokuev 量子倍 D(G)$ モデルで提供する。
境界サイトは$*$-subalgebra $Xisubseteq D(G)$の表現であり、その構造を強い$*$-準ホップ代数として説明する。
治療の応用として、水平方向の$K=G$と垂直方向の$K=e$に基づく境界付きパッチを調査し、量子コンピュータでどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-08-12T15:05:07Z) - Quantum double aspects of surface code models [77.34726150561087]
基礎となる量子double $D(G)$対称性を持つ正方格子上でのフォールトトレラント量子コンピューティングの北エフモデルを再検討する。
有限次元ホップ代数$H$に基づいて、我々の構成がどのように$D(H)$モデルに一般化するかを示す。
論文 参考訳(メタデータ) (2021-06-25T17:03:38Z) - Deep Learning Meets Projective Clustering [66.726500395069]
NLPネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $AinmathbbRntimes d$ としてエンコードすることである。
計算幾何学から遠射的クラスタリングに着想を得て、この部分空間を$k$部分空間の集合で置き換えることを提案する。
論文 参考訳(メタデータ) (2020-10-08T22:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。