論文の概要: When Quantization Is Free: An int4 KV Cache That Outruns fp16 on Apple Silicon
- arxiv url: http://arxiv.org/abs/2605.05699v1
- Date: Thu, 07 May 2026 05:44:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.537063
- Title: When Quantization Is Free: An int4 KV Cache That Outruns fp16 on Apple Silicon
- Title(参考訳): 量子化は無料:Apple Siliconでfp16を出力するInt4 KVキャッシュ
- Authors: Mohamed Amine Bergach,
- Abstract要約: KVキャッシュ量子化は、品質-レイテンシトレードオフとしてフレーム化される。
Apple Siliconの統一メモリにインセンティブを与えています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: KV-cache quantization is framed as a quality--latency trade-off. We show it is \emph{inverted} on Apple Silicon's unified memory: a single fused Metal kernel (sign-randomized FFT $+$ per-channel $λ$ $+$ per-group abs-max $+$ int4 nibble pack), exposed as a HuggingFace \texttt{Cache} subclass, runs \emph{faster than fp16} across $256$--$4096$-token prefixes on Gemma-3 1B ($-3$ to $-8\%$ ms/tok) and at short context on Qwen2.5-1.5B ($-0.7$ to $-2.6\%$ through $1$K), with $3\times$ persistent memory compression and quality preserved ($\dPPL = 0.000$ Qwen short-prompt; $+3.6$ hook $\dPPL$ Gemma). The kernel's $\sim\!25$\,ns/vec overhead is below the bandwidth savings from $3\times$ compression. The fused kernel also closes Qwen's 4-bit per-token catastrophe ($\dPPL = +7975 \to +638.6$, $12.5\times$ reduction) at $182$\,GFLOPS / $D{=}128$. Supporting findings: $\SRFT$ and $\SRHT$ are statistically indistinguishable for KV quality (we pick $\SRFT$ for mixed-radix and matrix-multiply alignment); a learned-rotation ablation surfaces a regularization role for the fixed random SRFT base (learning $R+λ$ without SRFT lowers calibration MSE $84.9\%$ vs $50.3\%$ but yields worse PPL); Householder rotations at $k{=}d/2$ reflectors are effectively lossless at $d{=}256$.
- Abstract(参考訳): KVキャッシュ量子化は、品質-レイテンシトレードオフとしてフレーム化される。
a single fused Metal kernel (sign-randomized FFT $+$ per-channel $λ$+$ per-group abs-max $+$ int4 nibble pack), exposed as a HuggingFace \texttt{Cache} subclass, run \emph{faster than fp16} across $256$--$4096$-token prefixes on Gemma-3 1B $-3$ to $-8\%$ ms/tok), at short context on Qwen2.5-1.5B $-0.7$ to $-2.6$% through $1K), with $3\times$ Per-group abs-max $+$ int4 nibble pack, exposed as a HuggingFace \texttt{Cache} subclass, run \emph{faster than fp16} across $256$-$-$4096$-token prefixes for Gemma-3B ($-3$ to $-8\%$ ms/tok), at short context on Qwen2.5-1.5B $-1.5B $0.7$ to $-2.6$ $ $1K, $3\times $d 圧縮と保存されたメモリと保存されたメモリ容量は、$000PPL = 0.000$6$3$3$3$3$3$3$である。
カーネルは$\sim\!
25$\,ns/vecのオーバーヘッドは、$3\times$圧縮による帯域幅の節約よりも低い。
融合カーネルはまた、Qwenの4ビット毎のカタストロフィ(\dPPL = +7975 \to +638.6$, $12.5\times$ reduction)を182$\,GFLOPS / $D{=}128$で閉じる。
結果:$\SRFT$と$\SRHT$はKVの品質に対して統計的に区別できない(混合基数と行列-多重アライメントに対して$\SRFT$を選ぶ)、学習回転アブレーションは固定ランダムSRFTベースに対して正規化ロールを表面化する(SRFTなしでの学習$R+λ$はキャリブレーション MSE 8,4.9\%$対50.3\%$であるが、より悪いPPLになる)、$k{=}d/2$リフレクタは$d{=}256$で事実上損失のない。
関連論文リスト
- How Much Cache Does Reasoning Need? Depth-Cache Tradeoffs in KV-Compressed Transformers [5.705685936981751]
キーバリュー(KV)キャッシュは、Transformer推論時の主要なメモリボトルネックである。
多段階の推論が劣化する前に、いかに積極的に圧縮できるかを考察する。
論文 参考訳(メタデータ) (2026-04-20T08:15:17Z) - IsoQuant: Hardware-Aligned SO(4) Isoclinic Rotations for LLM KV Cache Compression [0.4496256885343706]
四元数代数に基づくブロックワイズ回転フレームワークと、SO(4)$の等クリニック分解を提案する。
IsoQuantは、平均的なカーネルレベルのスピードアップを4.5times$--$4.7times$ over RotorQuantで達成し、ピーク時のスピードアップは6times$以上である。
論文 参考訳(メタデータ) (2026-03-30T13:37:45Z) - Rank-Aware Spectral Bounds on Attention Logits for Stable Low-Precision Training [0.0]
変圧器における注意スコアは、低精度トレーニングにおけるオーバーフローリスクを最大で支配する2次形式である$S_ij = x_itop M x_j / sqrtd_h$である。
相互作用行列 $M = WQ WKtop$ が階数 $r ll d$ を持つとき、$max_i,j|S_ij|$ は $exp(-d22/) となる。
論文 参考訳(メタデータ) (2026-02-21T14:29:22Z) - On the $O(\frac{\sqrt{d}}{K^{1/4}})$ Convergence Rate of AdamW Measured by $\ell_1$ Norm [52.95596504632859]
本稿では、$ell_1$ノルムで測定されたAdamWに対して、収束速度 $frac1Ksum_k=1KEleft[||nabla f(xk)||_1right]leq O(fracsqrtdCK1/4)$を確立する。
結果は、二重モーメント機構を用いたAdamW変種であるNAdamWに拡張し、同じ収束率を維持していることを示す。
論文 参考訳(メタデータ) (2025-05-17T05:02:52Z) - On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm [54.28350823319057]
本稿では、RMSPropとその運動量拡張を考察し、$frac1Tsum_k=1Tの収束速度を確立する。
我々の収束率は、次元$d$を除くすべての係数に関して下界と一致する。
収束率は$frac1Tsum_k=1Tと類似していると考えられる。
論文 参考訳(メタデータ) (2024-02-01T07:21:32Z) - A spectral least-squares-type method for heavy-tailed corrupted
regression with unknown covariance \& heterogeneous noise [2.019622939313173]
重み付き最小二乗線形回帰は、少なくとも$epsilon n$ arbitrary outliersの$n$のラベル特徴サンプルを破損させたと仮定して再検討する。
本稿では,$(Sigma,Xi) や $Xi$ の演算ノルムに関する知識を前提に,電力法に基づくほぼ最適に計算可能な推定器を提案する。
論文 参考訳(メタデータ) (2022-09-06T23:37:31Z) - Random Smoothing Might be Unable to Certify $\ell_\infty$ Robustness for
High-Dimensional Images [23.264535488112134]
乱数平滑化の難易度は, $ell_p$ の半径 $epsilon$ の攻撃に対して, $p>2$ のとき, 対逆ロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2020-02-10T03:26:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。