論文の概要: Runtime-Certified Bounded-Error Quantized Attention
- arxiv url: http://arxiv.org/abs/2605.20868v1
- Date: Wed, 20 May 2026 08:04:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.563367
- Title: Runtime-Certified Bounded-Error Quantized Attention
- Title(参考訳): 実行時認証境界誤差量子化注意
- Authors: Dean Calver,
- Abstract要約: 本稿では,実行時対応型KVキャッシュアーキテクチャを提案する。
二項誤差分解は、キー量子化および(ii)値再構成誤差から、(i)注目分布歪みに対するヘッド当たり、ステップ当たりのバウンダリが得られる。
PG-19、NIAH、RULERのベンチマークにおいて、このシステムは言語モデリングと検索タスクのためのノイズ内の密度の高いFP16 KV品質と一致している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: KV cache quantization reduces the memory cost of long-context LLM inference, but introduces approximation error that is typically validated only empirically. Existing systems rely on average-case robustness, with no mechanism to detect or recover from failures at runtime. We present a tiered KV cache architecture that enables runtime-certified attention: INT8 keys and INT4 values are stored in GPU memory, while FP16 originals are retained in system RAM for deterministic fallback. A two-term error decomposition yields per-head, per-step bounds on (i) attention distribution distortion from key quantization and (ii) value reconstruction error. These bounds are computed online and used to drive adaptive precision selection and a multi-stage fallback ladder, which guarantees recovery to the exact dense attention output when required. Across PG-19, NIAH, and RULER benchmarks on LLaMA~3.1-8B with contexts up to 128K, the system matches dense FP16 KV quality within noise for language modelling and retrieval tasks, while recovering catastrophic failures observed in naive INT8/INT4 baselines. Value-sensitive tasks at short context expose a controlled trade-off between compression and fidelity, which can be eliminated via tighter value tolerances or FP16-value fallback. The certification is local (per-head, per-step) and does not guarantee end-to-end model correctness, but ensures that each attention computation is either bounded relative to an FP16 reference or exactly recovered via fallback. This reframes KV cache quantization as a runtime-verified computation rather than a fixed approximation. The goal is not raw speedups, but enabling safe deployment of aggressive KV compression under strict quality constraints.
- Abstract(参考訳): KVキャッシュ量子化は、長文LLM推論のメモリコストを低減させるが、通常は経験的にのみ検証される近似誤差を導入する。
既存のシステムは平均ケースの堅牢性に依存しており、実行時に障害を検出したり、回復するメカニズムはない。
INT8キーとINT4値はGPUメモリに格納され、FP16オリジナルは決定論的フォールバックのためにシステムRAMに保持される。
2項の誤差分解は、ステップごとのヘッド毎のバウンダリを出力する
一 鍵量子化による注意分布歪み及び注意分布
(ii)値復元誤差。
これらの境界はオンラインで計算され、適応的な精度の選択と多段階のフォールバックラグを駆動するために使用される。
LLaMA~3.1-8BのPG-19、NIAH、RULERのベンチマークと128Kまでの文脈で、システムは言語モデリングと検索タスクのノイズの中で密度の高いFP16 KVの品質と一致し、単純なINT8/INT4ベースラインで観測された破滅的な障害を回復する。
短いコンテキストでの価値に敏感なタスクは、圧縮と忠実さの間の制御されたトレードオフを明らかにし、より厳密な値許容やFP16値のフォールバックによって排除できる。
認証はローカル(各ステップ毎)で、エンドツーエンドのモデルの正しさは保証されていないが、各アテンション計算がFP16参照に対してバウンドされているか、フォールバック経由で正確に回収されているかが保証される。
これにより、KVキャッシュの量子化は、固定近似ではなく実行時検証された計算として再設定される。
目標は、生のスピードアップではなく、厳格な品質制約の下で、積極的なKV圧縮の安全なデプロイを可能にすることだ。
関連論文リスト
- OScaR: The Occam's Razor for Extreme KV Cache Quantization in LLMs and Beyond [50.440302567029654]
マルチモーダルインテリジェンスにより、Key-Valueキャッシュは効率的なデプロイメントのための主要なメモリボトルネックとなった。
本研究では、チャネルごとの量子化パラダイムの本質的な限界を再考する。
X-LLMのための高精度かつ軽量なKVキャッシュ圧縮フレームワークOScaRを提案する。
論文 参考訳(メタデータ) (2026-05-19T10:53:03Z) - Self-Pruned Key-Value Attention: Learning When to Write by Predicting Future Utility [31.124813359673073]
我々は,将来のKVユーティリティを予測するメカニズムであるSP-KV(Self-Pruned Key-Value Attention)を導入する。
軽量ユーティリティ予測器は各キーと値のペアをスコアし、最近のKVは常にローカルウィンドウ経由で利用できるが、古いペアはキャッシュに書き込まれる。
このメカニズムは入力に適応し、典型的にはKVキャッシュサイズを3ドルから10ドルに削減する。
論文 参考訳(メタデータ) (2026-05-13T18:58:16Z) - Don't Waste Bits! Adaptive KV-Cache Quantization for Lightweight On-Device LLMs [8.332279450103151]
大規模言語モデル (LLM) は、推論、生成、意思決定のタスクで顕著な進歩を遂げた。
オンデバイスLSM推論は、キー値(KV)キャッシュのメモリと帯域幅のオーバーヘッドによって大きく制約される。
本稿では,トークンの重要度に比例したビット幅を割り当てる学習ポリシである適応KV-cache量子化を提案する。
論文 参考訳(メタデータ) (2026-04-06T14:45:49Z) - Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression [4.049313299965171]
この圧縮と加速のギャップによって、我々は測定されたレイテンシーをターゲットとした実用的な順序付きパイプラインを研究した。
我々は、非構造化プルーニング、量子化対応トレーニング(QAT)、知識蒸留(KD)の3つの広く使われている技術を組み合わせている。
すべての設定で、順序付けされたパイプラインは、単一のテクニック単独よりも、より精度の高いレイテンシフロンティアを実現する。
論文 参考訳(メタデータ) (2026-04-05T06:13:47Z) - PatternKV: Flattening KV Representation Expands Quantization Headroom [37.83913102876393]
自己回帰 LLM における KV キャッシュは冗長な再計算を排除しているが、推論時に支配的なメモリと帯域幅のボトルネックとして出現している。
KV量子化はキャッシュコストを削減するキーレバーであるが、ネイティブなKV分布が平坦性に欠けるため、精度は急激に低下する。
Kキャッシュは、コンテキストとともに徐々に進化する安定した構造を維持し、Vキャッシュは潜在意味規則性を持つことを示す。
論文 参考訳(メタデータ) (2025-10-05T12:09:14Z) - XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization [58.92253769255316]
LLM推論はメモリフットプリントと帯域幅の要求のために困難である。
XQuantは、ハードウェアプラットフォームの急速に増加する計算能力を利用して、メモリボトルネックを取り除く。
XQuant-CLは、極端な圧縮のためにX埋め込みの層間類似性を利用する。
論文 参考訳(メタデータ) (2025-08-14T06:52:38Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - No Token Left Behind: Reliable KV Cache Compression via Importance-Aware
Mixed Precision Quantization [31.806112535762367]
キーバリューキャッシングは、生成型大規模言語モデル(LLM)の推論速度とスループットを加速する重要な技術となっている。
論文 参考訳(メタデータ) (2024-02-28T06:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。