論文の概要: eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization
- arxiv url: http://arxiv.org/abs/2605.02905v1
- Date: Mon, 06 Apr 2026 02:05:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.502356
- Title: eOptShrinkQ: Near-Lossless KV Cache Compression Through Optimal Spectral Denoising and Quantization
- Title(参考訳): eOptShrinkQ: 最適スペクトル分解と量子化によるニアロスレスKVキャッシュ圧縮
- Authors: Pei-Chun Su,
- Abstract要約: eOptShrinkQは2段階圧縮パイプラインであり、最適特異値収縮(eOptShrink)が自動的に共有構造を抽出する。
残基は非局在化座標でエンフチン殻の性質を満足し、TurboQuantcitepzandieh2025quantによって量子化される。
実験により,Llama-3.1-8BとMinistral-8BのeOptShrinkQを3つのレベル – 頭頂部MSEと内積忠実度 – で検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We show that the key-value (KV) cache in transformer attention heads admits a natural decomposition into a low-rank \emph{shared context} component and a full-rank \emph{per-token} residual, well described by the spiked random matrix model. This observation leads to eOptShrinkQ, a two-stage compression pipeline: optimal singular value shrinkage (eOptShrink) automatically extracts the shared structure, and the residual -- which satisfies the \emph{thin shell property} with delocalized coordinates -- is quantized by TurboQuant~\citep{zandieh2025turboquant}, a recently proposed per-vector scalar quantizer with near-optimal distortion guarantees. By restoring the isotropy that scalar quantization assumes, spectral denoising eliminates the need for both outlier handling and dedicated inner product bias correction, freeing those bits for improved reconstruction. The theoretical grounding in random matrix theory provides three guarantees: automatic rank selection via the BBP phase transition, provably near-zero inner product bias on the residual, and coordinate delocalization ensuring near-optimal quantization distortion. Experimentally, we validate eOptShrinkQ on Llama-3.1-8B and Ministral-8B across three levels: per-head MSE and inner product fidelity, where eOptShrinkQ saves nearly one bit per entry over TurboQuant at equivalent quality; end-to-end on LongBench (16 tasks), where eOptShrinkQ at $\sim$2.2 bits per entry outperforms TurboQuant at 3.0 bits; and multi-needle retrieval, where eOptShrinkQ at 2.2 bits closely matches or exceeds uncompressed FP16, suggesting that spectral denoising can act as a beneficial regularizer for retrieval-intensive tasks.
- Abstract(参考訳): 本稿では, キー値 (KV) キャッシュは, スパイクされたランダム行列モデルによりよく記述された, 低ランクな \emph{shared context} 成分とフルランクな \emph{per-token} 残差の自然な分解を許容することを示す。
最適特異値収縮(eOptShrink)は共有構造を自動的に抽出し、非局在化座標で \emph{thin shell property} を満たす残基はTurboQuant~\citep{zandieh2025turboquant} によって量子化される。
スカラー量子化が仮定するアイソトロピーを復元することにより、スペクトル偏光は、アウタリーハンドリングと専用の内部積バイアス補正の両方の必要性を排除し、それらのビットを解放して再構成を改善する。
ランダム行列理論の理論的根拠は、3つの保証を与える: BBP相転移による自動階数選択、確率的に残基の内積偏差がゼロに近いこと、および近似量子化歪みが最適に近いことを保証する座標非局在化である。
実験的に、Llama-3.1-8B と Ministral-8B の eOptShrinkQ を3つのレベルで検証した: 頭ごとの MSE と内積の忠実さ、eOptShrinkQ は同等品質で TurboQuant 上のエントリ当たりの 1 ビット近くを節約し、eOptShrinkQ は $\sim$2.2 bits で、TurboQuant は 3.0 ビットで、eOptShrinkQ は eOptShrinkQ は2.2 bit で、非圧縮 FP16 では密に一致または超える。
関連論文リスト
- TurboBoA: Faster and Exact Attention-aware Quantization without Backpropagation [14.165250481321019]
本稿では,BoAの精度を保ちながら処理を著しく高速化する,バックプロパゲーションフリーのPTQアルゴリズムであるTurboBoAを提案する。
i)シーケンシャルボトルネックを低減し、3倍以上のスピードアップをもたらすクローズドフォームのエラー補償規則と、(ii)先行する量子化層から伝播するエラーの補正機構、(iii)座標偏差補正による適応グリッド計算により、繰り返し更新時のアライメントを維持する。
論文 参考訳(メタデータ) (2026-02-04T09:38:50Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - Dual Quaternion SE(3) Synchronization with Recovery Guarantees [18.75848171128639]
本稿では、二元四元数表現を採用し、SE(3)を単位二元四元数上で直接同期する。
スペクトル初期化器はエルミート二元四元数測定行列上の電力法で計算され、次いで二元四元数一般化電力法で計算される。
合成ベンチマークと実世界のマルチスキャン点集合登録実験により、提案したパイプラインは精度と効率の両方を向上することを示した。
論文 参考訳(メタデータ) (2026-01-30T21:24:20Z) - Continual Quantum Architecture Search with Tensor-Train Encoding: Theory and Applications to Signal Processing [68.35481158940401]
CL-QASは連続的な量子アーキテクチャ検索フレームワークである。
振幅のエンコードと変分量子回路の忘れを犠牲にすることの課題を緩和する。
制御可能なロバスト性表現性、サンプル効率の一般化、およびバレンプラトーを使わずに滑らかな収束を実現する。
論文 参考訳(メタデータ) (2026-01-10T02:36:03Z) - Spectral Graph Clustering under Differential Privacy: Balancing Privacy, Accuracy, and Efficiency [53.98433419539793]
エッジ差分プライバシー(DP)下におけるスペクトルグラフクラスタリングの問題点について検討する。
具体的には, (i) エッジフリップによるグラフ摂動と, エッジプライバシを強制する隣接行列シャッフルを併用したグラフ摂動, (ii) 次元と複雑性の複雑さを低減するために低次元空間における加法的ガウス雑音を伴うプライベートグラフプロジェクション, (iii) 収束性を維持しながらエッジDPを確保するために反復的にガウス雑音を分散するノイズの多いパワーイテレーション手法である。
論文 参考訳(メタデータ) (2025-10-08T15:30:27Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Metropolis-Hastings Sampling for 3D Gaussian Reconstruction [31.840492077537018]
3次元ガウス平滑化のための適応型サンプリングフレームワーク(3DGS)を提案する。
我々の枠組みは, 確率的サンプリングプロセスとして, デンシフィケーションとプルーニングを改質することで限界を克服する。
提案手法は,最先端モデルのビュー合成品質を適度に上回りながら,より高速な収束を実現する。
論文 参考訳(メタデータ) (2025-06-15T19:12:37Z) - TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate [13.14434628836727]
ベクトル量子化は、その幾何学構造における歪みを最小限にしながら、高次元ユークリッドベクトルを定量化することを目的としている。
平均二乗誤差(MSE)と内積歪みに対処するTurboQuantを提案する。
オンラインアプリケーションに適したデータ公開アルゴリズムは、ほぼ最適な歪み率を達成する。
論文 参考訳(メタデータ) (2025-04-28T15:05:35Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Suppressing Amplitude Damping in Trapped Ions: Discrete Weak
Measurements for a Non-unitary Probabilistic Noise Filter [62.997667081978825]
この劣化を逆転させるために、低オーバーヘッドプロトコルを導入します。
振幅減衰雑音に対する非単位確率フィルタの実装のための2つのトラップイオンスキームを提案する。
このフィルタは、単一コピー準蒸留のためのプロトコルとして理解することができる。
論文 参考訳(メタデータ) (2022-09-06T18:18:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。