論文の概要: FibQuant: Universal Vector Quantization for Random-Access KV-Cache Compression
- arxiv url: http://arxiv.org/abs/2605.11478v1
- Date: Tue, 12 May 2026 03:45:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.555836
- Title: FibQuant: Universal Vector Quantization for Random-Access KV-Cache Compression
- Title(参考訳): FibQuant:ランダムなKVキャッシュ圧縮のためのユニバーサルベクトル量子化
- Authors: Namyoon Lee, Yongjune Kim,
- Abstract要約: 固定レートベクトル量子化器のtextscFibQuant を導入する。
コードブックにはBeta-quantile radii, Fibonacci,/,Roberts--Kronecker quasi-Max が組み合わされている。
GPT-2の小さなKVキャッシュでは、textscFibQuantはメモリ-フィデリティフロンティアをトレースする。
- 参考スコア(独自算出の注目度): 35.73320708128261
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context inference is increasingly a memory-traffic problem. The culprit is the key--value (KV) cache: it grows with context length, batch size, layers, and heads, and it is read at every decoding step. Rotation-based scalar codecs meet this systems constraint by storing a norm, applying a shared random rotation, and quantizing one coordinate at a time. They are universal and random-access, but they discard the geometry created by the normalization step. After a Haar rotation, a block of $k$ consecutive coordinates is not a product source; it is a spherical-Beta source on the unit ball. We introduce \textsc{FibQuant}, a universal fixed-rate vector quantizer that keeps the same normalize--rotate--store interface while replacing scalar tables by a shared radial--angular codebook matched to this canonical source. The codebook combines Beta-quantile radii, Fibonacci\,/\,Roberts--Kronecker quasi-uniform directions, and multi-restart Lloyd--Max refinement. We prove that the resulting vector code strictly improves on its scalar product specialization at matched rate, with a high-rate gain that separates into a cell-shaping factor and a density-matching factor. The same construction gives a dense rate axis, including fractional-bit and sub-one-bit operating points, without calibration or variable-length addresses. On GPT-2 small KV caches, \textsc{FibQuant} traces a memory--fidelity frontier from $5\times$ compression at $0.99$ attention cosine similarity to $34\times$ at $0.95$. End-to-end on TinyLlama-1.1B, it is within $0.10$ perplexity of fp16 at $4\times$ compression and has $3.6\times$ lower perplexity than scalar \textsc{TurboQuant} at $b = 2$ ($8\times$ compression), where scalar random-access quantization begins to fail.
- Abstract(参考訳): 長文推論はますますメモリトラヒックの問題になりつつある。
犯人はキー値(KV)キャッシュであり、コンテキスト長、バッチサイズ、レイヤ、ヘッドで成長し、デコードステップ毎に読み込まれる。
回転に基づくスカラーコーデックは、ノルムを格納し、共有ランダム回転を適用し、一度に1つの座標を量子化することによって、この制約を満たす。
それらは普遍的でランダムなアクセスであるが、正規化ステップによって生成される幾何学を捨てる。
ハール回転の後、$k$連続座標のブロックは生成元ではなく、単位球上の球面-ベータ源である。
正規化-回転-ストアインタフェースを保ちながら、スカラーテーブルをこの標準元と一致する共有ラジアル-角符号ブックで置き換える、普遍的な固定レートベクトル量子化器である \textsc{FibQuant} を導入する。
コードブックには、Beta-quantile radii, Fibonacci\,/\,Roberts-Kronecker quasi-uniform directions とマルチスタート Lloyd-Max refinement が組み込まれている。
得られたベクトルコードは, セル形成因子と密度マッチング因子とを分離した高レートゲインを用いて, 一致する速度でスカラー積の特殊化を厳密に改善することを証明する。
同じ構成では、キャリブレーションや可変長のアドレスを使わずに、分数ビットとサブワンビットの操作点を含む高密度なレート軸が与えられる。
GPT-2の小さなKVキャッシュでは、 \textsc{FibQuant} は 5\times$圧縮が0.99ドル、34\times$が0.95ドルからメモリフィデリティフロンティアをトレースする。
TinyLlama-1.1Bのエンドツーエンドでは、fp16の$0.10$パープレキシティが$4\times$圧縮で、スカラーの$3.6\times$スカラーの$textsc{TurboQuant} よりも低いパープレキシティが$b = 2$$$8\times$圧縮で、スカラーのランダムアクセス量子化が失敗し始める。
関連論文リスト
- Stochastic Sparse Attention for Memory-Bound Inference [19.301894658575502]
SANTA(Additive No-mult Attention)は,ソフトマックス後の分布から$S ll n_k$インデックスをサンプリングすることで,値キャッシュアクセスを分散する手法である。
また、スコアステージをスパース化するための補完手法としてBernoulli $qKmathsfT$サンプリングを提案する。
論文 参考訳(メタデータ) (2026-05-03T14:44:14Z) - Scaling Federated Linear Contextual Bandits via Sketching [49.12000877146222]
本稿では,FSCLB(Federated Sketch Contextual Linear Bandits)を提案する。
合成と実世界の両方のデータセットの実験では、FSCLBは計算と通信のコストを90%以上削減している。
論文 参考訳(メタデータ) (2026-05-01T08:22:06Z) - IsoQuant: Hardware-Aligned SO(4) Isoclinic Rotations for LLM KV Cache Compression [0.4496256885343706]
四元数代数に基づくブロックワイズ回転フレームワークと、SO(4)$の等クリニック分解を提案する。
IsoQuantは、平均的なカーネルレベルのスピードアップを4.5times$--$4.7times$ over RotorQuantで達成し、ピーク時のスピードアップは6times$以上である。
論文 参考訳(メタデータ) (2026-03-30T13:37:45Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - An Improved Quantum Algorithm for 3-Tuple Lattice Sieving [1.5327973773729056]
最短ベクトル問題はポスト量子暗号の基盤の1つである。
SVPに対する最も高速な攻撃はいわゆる Sieving メソッドである。
本稿では,3タプルシービングの量子時間複雑性を20.3098d$から20.2846d$に改善する。
論文 参考訳(メタデータ) (2025-10-09T17:13:07Z) - Programmable Quantum Matter: Heralding Large Cluster States in Driven Inhomogeneous Spin Ensembles [0.0]
固体中のAtomのようなエミッタは、量子センシングと情報処理のための有望なプラットフォームである。
本稿では、この多様性を活用して、光学的に隠蔽されたスピンクラスター状態を生成するためのリソースを削減するフレームワークを提案する。
最適化されたパルスシーケンスは、パルス長とデチューニングエラーを同時に補正し、エラーに対して99.99%以上の単一量子ビットゲートフィデリティを達成する。
論文 参考訳(メタデータ) (2025-09-03T03:59:22Z) - Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction [57.93371273485736]
我々は、すべての労働者が同一の分布にアクセスする均質な(すなわちd.d.)場合であっても、すべての労働者が非バイアス付き境界 LDeltaepsilon2,$$$$$ のポリ対数的により良いポリ対数を求める集中型分散学習環境を考える。
論文 参考訳(メタデータ) (2025-06-30T13:27:39Z) - Exact results on finite size corrections for surface codes tailored to biased noise [0.0]
位相バイアス雑音下でのXYとXZZXの表面符号について検討する。
厳密な解は特別な乱れ点で見つかる。
我々は,論理的失敗率の総数だけでなく,位相とビットフリップの論理的失敗率の独立性に基づくしきい値を計算することにより,より確実な推定値が得られることを示した。
論文 参考訳(メタデータ) (2024-01-08T16:38:56Z) - Random quantum circuits transform local noise into global white noise [118.18170052022323]
低忠実度状態におけるノイズランダム量子回路の測定結果の分布について検討する。
十分に弱くユニタリな局所雑音に対して、一般的なノイズ回路インスタンスの出力分布$p_textnoisy$間の相関(線形クロスエントロピーベンチマークで測定)は指数関数的に減少する。
ノイズが不整合であれば、出力分布は、正確に同じ速度で均一分布の$p_textunif$に近づく。
論文 参考訳(メタデータ) (2021-11-29T19:26:28Z) - Deep Learning Meets Projective Clustering [66.726500395069]
NLPネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $AinmathbbRntimes d$ としてエンコードすることである。
計算幾何学から遠射的クラスタリングに着想を得て、この部分空間を$k$部分空間の集合で置き換えることを提案する。
論文 参考訳(メタデータ) (2020-10-08T22:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。