論文の概要: LOOKAT: Lookup-Optimized Key-Attention for Memory-Efficient Transformers
- arxiv url: http://arxiv.org/abs/2601.10155v1
- Date: Thu, 15 Jan 2026 07:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.042036
- Title: LOOKAT: Lookup-Optimized Key-Attention for Memory-Efficient Transformers
- Title(参考訳): LOokat: メモリ効率の良いトランスのためのルックアップ最適化キーアテンション
- Authors: Aryan Karmore,
- Abstract要約: 現在の量子化法では、ストレージを圧縮するが、注意計算では、使用前にINT4/INT8からFP16へ鍵を復号化する必要があるため帯域幅を削減できない。
本稿では,鍵ベクトルを部分空間に分解することで,製品量子化と非対称距離計算をトランスフォーマーアーキテクチャに適用するLOokaTを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compressing the KV cache is a required step to deploy large language models on edge devices. Current quantization methods compress storage but fail to reduce bandwidth as attention calculation requires dequantizing keys from INT4/INT8 to FP16 before use. We observe that attention scoring is mathematically equivalent to the inner product similarity search and we can apply some compression techniques from vector databases to compress KV-cache better. We propose LOOKAT, which applies product quantization and asymmetric distance computation, to transformer architecture by decomposing key vectors into subspaces, learning codebooks and computing attention tables via lookup tables. This transforms attention from memory-bound to compute-bound. LOOKAT achieves 64 $\times$ compression at 95.7\% output fidelity and 32 $\times$ compression at 95.0\% fidelity when tested on GPT-2. LOOKAT requires no architecture changes or training while maintaining rank correlation $ρ> 0.95$. Theoretical analysis confirms that rank correlation degrades as $O(d_k/mK)$, with guarantees validated across sequence lengths up to 1024 tokens.
- Abstract(参考訳): KVキャッシュを圧縮することは、エッジデバイスに大規模な言語モデルをデプロイするために必要なステップである。
現在の量子化法では、ストレージを圧縮するが、注意計算では、使用前にINT4/INT8からFP16へ鍵を復号化する必要があるため帯域幅を削減できない。
注意スコアリングは内部積類似度探索と数学的に等価であり,ベクトルデータベースからの圧縮技術を用いてKV-cacheをよりよく圧縮することができる。
本稿では,キーベクトルをサブスペースに分解し,コードブックを学習し,ルックアップテーブルを介してアテンションテーブルを演算することで,トランスフォーマーアーキテクチャに製品量子化と非対称距離計算を適用するLOokaTを提案する。
これにより、メモリバウンドから計算バウンドに注目が移る。
LOokaT は GPT-2 でテストすると 95.7 % で 64$\times$ 圧縮を 95.0 % で 32$\times$ 圧縮を達成している。
LOokaTはアーキテクチャの変更やトレーニングは必要とせず、ランク相関は$ρ> 0.95$である。
理論的解析により、ランク相関は$O(d_k/mK)$として低下し、最大1024トークンまでのシーケンス長の保証が保証される。
関連論文リスト
- KV Cache Transform Coding for Compact Storage in LLM Inference [2.20003167536462]
KVTCは、KVキャッシュをコンパクトなオンGPUとオフGPUストレージに圧縮する軽量トランスフォーメーションコーダである。
KVキャッシュの冗長性を活用することで、KVTCは推論と長文の精度を維持しながら最大20$times$圧縮を達成する。
我々は、AIME25、LiveCodeBench、GSM8K、MMLU、Qasper、RULER、MATH-500を含むベンチマークで、Llama 3、Mistral NeMo、R1-Qwen 2.5モデルでKVTCをテストする。
論文 参考訳(メタデータ) (2025-11-03T18:20:35Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - Inference-Time Hyper-Scaling with KV Cache Compression [14.3277766059543]
Dynamic Memory Sparsification (DMS)は、8$times$圧縮を達成するために1Kのトレーニングステップしか必要としないKVキャッシュをスパース化する新しい方法である。
DMSは推論遅延とメモリ負荷に匹敵する精度を向上することを示す。
例えば、GPQA では AIME 24 8.6 、LiveCodeBench では 9.7 で、12.0 のポイントで Qwen-R1 32B を拡張します。
論文 参考訳(メタデータ) (2025-06-05T17:59:55Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。
ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。
結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - Cache Me If You Must: Adaptive Key-Value Quantization for Large Language Models [28.16603647353951]
AQUA-KVは、コンパクトアダプタに依存するキーバリューキャッシュの適応量子化である。
パープレキシティとLongBenchスコアの相対誤差を1%以下の値で2-2.5ビットで近似する。
論文 参考訳(メタデータ) (2025-01-31T18:47:42Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。