論文の概要: IsoQuant: Hardware-Aligned SO(4) Isoclinic Rotations for LLM KV Cache Compression
- arxiv url: http://arxiv.org/abs/2603.28430v1
- Date: Mon, 30 Mar 2026 13:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.422585
- Title: IsoQuant: Hardware-Aligned SO(4) Isoclinic Rotations for LLM KV Cache Compression
- Title(参考訳): IsoQuant: LLM KVキャッシュ圧縮のためのハードウェア対応SO(4)等クリニックローテーション
- Authors: Zhongping Ji,
- Abstract要約: 四元数代数に基づくブロックワイズ回転フレームワークと、SO(4)$の等クリニック分解を提案する。
IsoQuantは、平均的なカーネルレベルのスピードアップを4.5times$--$4.7times$ over RotorQuantで達成し、ピーク時のスピードアップは6times$以上である。
- 参考スコア(独自算出の注目度): 0.4496256885343706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Orthogonal feature decorrelation is effective for low-bit online vector quantization, but dense random orthogonal transforms incur prohibitive $O(d^2)$ storage and compute. RotorQuant reduces this cost with blockwise $3$D Clifford rotors, yet the resulting $3$D partition is poorly aligned with modern hardware and offers limited local mixing. We propose \textbf{IsoQuant}, a blockwise rotation framework based on quaternion algebra and the isoclinic decomposition of $SO(4)$. It represents each $4$D block as a quaternion and applies a closed-form transform $T(v)=q_L v \overline{q_R}$. This yields two main variants: \emph{IsoQuant-Full}, which realizes the full $SO(4)$ rotation, and \emph{IsoQuant-Fast}, which keeps only one isoclinic factor for lower cost; the framework also admits a lightweight $2$D special case. At $d=128$, IsoQuant-Full reduces forward rotation cost from about $2{,}408$ FMAs in RotorQuant to $1{,}024$, while IsoQuant-Fast further reduces it to $512$. Across $18$ fused CUDA settings with $d \in {128,256,512}$, bit widths ${2,3,4}$, and FP16/FP32 execution, IsoQuant achieves mean kernel-level speedups of about $4.5\times$--$4.7\times$ over RotorQuant while maintaining comparable reconstruction MSE, with peak speedups above $6\times$. Current validation is limited to the stage-1 quantize--dequantize path on synthetic normalized vectors; end-to-end KV-cache evaluation remains future work.
- Abstract(参考訳): 直交特徴デコリレーションは低ビットオンラインベクトル量子化に有効であるが、高密度なランダム直交変換は禁忌な$O(d^2)$ストレージと計算を行う。
RotorQuantはこのコストを3ドル(約3,300円)のクリフォード・ローターで削減するが、結果として3ドル(約3,300円)のパーティションは現代のハードウェアと不整合であり、限定的なローカルミキシングを提供する。
四元数代数に基づくブロックワイズ回転フレームワークである「textbf{IsoQuant}」と、SO(4)$の等クリニック分解を提案する。
4ドルのブロックを四元数として表し、閉じた変換を$T(v)=q_L v \overline{q_R}$とする。
これにより、完全な$SO(4)$回転を実現する \emph{IsoQuant-Full} と、低コストで1つのアイソクリニック因子を保持する \emph{IsoQuant-Fast} の2つの主要な変種が得られる。
IsoQuant-Fullは$d=128$で、RotorQuantのFMAを$${,}408$から${,}024$に下げ、IsoQuant-Fastは$512$に下げる。
128,256,512}$の$d \in {128,256,512}$、ビット幅${2,3,4}$、FP16/FP32の実行で、IsoQuantは平均的なカーネルレベルのスピードアップを約4.5\times$-$4.7\times$ over RotorQuantで達成している。
現在の検証は、合成正規化ベクトル上のステージ-1量子化-値化経路に限られている。
関連論文リスト
- Universal Quantum Suppression in Frustrated Ising Magnets across the Quasi-1D to 2D Crossover via Quantum Annealing [0.0]
競合する強磁性と反強磁性のカップリングは、任意のシステムサイズで量子モンテカルロに対して証明可能な難題を生成する。
我々は、$g_cmathrmQPUin0.286,,0.210,,0.156,0.093$ for $in1.0,,0.7,0.5,0.3$で量子駆動遷移を測定する。
論文 参考訳(メタデータ) (2026-03-25T13:50:52Z) - Optimal Scalar Quantization for Matrix Multiplication: Closed-Form Density and Phase Transition [50.36362492608702]
乗算前の2つの行列のエントリーワイズスカラー量子化について検討した。
我々は、閉形式の最適点密度 [ star(u) propto exp!left(-fracu26right)bigl( (1-2)+2u22bigr), qquad u=fracx_X を求め、相関駆動相転移を証明した。
論文 参考訳(メタデータ) (2026-03-20T01:53:44Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - Measuring quantum relative entropy with finite-size effect [53.64687146666141]
相対エントロピー$D(rho|sigma)$を$sigma$が知られているときに推定する。
我々の推定器は次元$d$が固定されたときにCram'er-Rao型境界に達する。
論文 参考訳(メタデータ) (2024-06-25T06:07:20Z) - Globally optimal interferometry with lossy twin Fock probes [0.0]
2つの二次スピンオブザーバ$J_z2$と$J_+2+J_-2$のモーメント読み出し法がディック状態プローブに対して大域的に最適であることを示す。
損失条件では、粒子損失が双子のフォック状態に与える影響を記述する時間的不均一マルコフ過程を導出する。
論文 参考訳(メタデータ) (2023-08-10T22:56:12Z) - Cost Function Dependent Barren Plateaus in Shallow Parametrized Quantum
Circuits [0.755972004983746]
変分量子アルゴリズム (VQA) はパラメタライズド量子回路のパラメータ $vectheta$ を最適化する。
我々は、$V(vectheta)$が局所的な2-デザインを形成するブロックからなる交互層状アンサッツであると仮定して、2つの結果を証明した。
量子オートエンコーダの実装において、これらのアイデアを最大100キュービットの大規模シミュレーションで説明する。
論文 参考訳(メタデータ) (2020-01-02T18:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。