論文の概要: SPHERICAL KV: Angle-Domain Attention and Rate-Distortion Retention for Efficient Long-Context Inference
- arxiv url: http://arxiv.org/abs/2605.18856v1
- Date: Wed, 13 May 2026 18:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.674899
- Title: SPHERICAL KV: Angle-Domain Attention and Rate-Distortion Retention for Efficient Long-Context Inference
- Title(参考訳): SPHERical KV---------------------------------------------------------------------------------------------
- Authors: Anay Chauhan, Gurucharan Marthi Krishna Kumar, Arion Das, Amit Dhanda, Vinija Jain, Aman Chadha, Amitava Das,
- Abstract要約: 本稿では,KV割り当てを高速復号化のためのレート歪み問題として扱う長文推論手法であるSpherical KVを提案する。
この手法は, (i)デコードホットループにおいて, 方向性情報を安価に表現し, (ii) 予測された将来の有用性に応じて, 保持と精度を割り当てる2つのアイデアに基づいて構築される。
- 参考スコア(独自算出の注目度): 16.38817531610931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context inference is increasingly constrained by the KV cache: resident memory grows with context length, and decoding becomes limited by repeated High Bandwidth Memory (HBM) streaming rather than arithmetic. Existing methods such as eviction, windowing, quantization, and offloading reduce footprint, but often leave the critical-path bottleneck only partially addressed, especially when compressed states must still be reconstructed into dense vectors during decoding. We present Spherical KV, a long-context inference method that treats KV allocation as a rate-distortion problem grounded in attention geometry for efficient decoding. The method is built on two ideas: (i) represent directional information cheaply in the decode hot loop, and (ii) allocate retention and precision according to estimated future utility. Its first component, Angle-Domain Attention (ADA), stores keys in a spherical parameterization consisting of a scalar radius and compact angle codes, and computes attention logits directly from these codes without reconstructing dense keys. This preserves a paged, block-local, fusion-friendly decode path and directly targets HBM traffic in realistic serving settings. Its second component, Rate-Distortion Retention (RDR), jointly chooses keep/drop decisions and precision tiers per token and head under a fixed budget, producing tier-homogeneous pages with lightweight metadata and coalesced reads. Together, ADA and RDR provide a deployment-oriented mechanism for reducing KV residency while preserving decode efficiency.
- Abstract(参考訳): 常駐メモリはコンテキスト長とともに成長し、復号化は算術ではなくHBM(High Bandwidth Memory)ストリーミングの繰り返しによって制限される。
除算、ウィンドウ化、量子化、オフロードといった既存の手法はフットプリントを減少させるが、特に圧縮状態が復号時に高密度ベクトルに再構成されなければならない場合、クリティカルパスのボトルネックは部分的にのみ対処される。
そこで本研究では,KV割り当てを,注目幾何学に基づく高速復号化問題として扱う長文推論手法であるSpherical KVを提案する。
この方法は2つのアイデアに基づいて構築されている。
i)デコードホットループにおいて、方向情報を安価に表現し、
二 推定将来の実用性に応じて保持及び精度を割り当てる。
その最初のコンポーネントである Angle-Domain Attention (ADA) は、スカラー半径とコンパクト角符号からなる球面パラメータ化にキーを格納し、密度の高いキーを再構築することなく、これらのコードから直接アテンションロジットを計算する。
これはページ化、ブロックローカル、フュージョンフレンドリーなデコードパスを保持し、現実的なサービス設定でHBMトラフィックを直接ターゲットする。
第2のコンポーネントであるRDR(Rate-Distortion Retention)は,トークン単位の保持/ドロップ決定と精度ティアを,固定予算の下で共同で選択する。
ADAとRDRは、デコード効率を保ちながらKV常駐を減少させるデプロイメント指向のメカニズムを提供する。
関連論文リスト
- ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs [1.1267872663780352]
大規模言語モデル(LLM)は、超長期のコンテキスト推論を必要とするシナリオにますますデプロイされている。
既存のメモリ削減技術、例えば消去や量子化は、しばしば静的キャッシュに依存している。
キャッシュされたトークンに精度レベルを動的に割り当てる軽量で適応的なフレームワークARKVを提案する。
論文 参考訳(メタデータ) (2026-02-19T16:24:08Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - SparK: Query-Aware Unstructured Sparsity with Recoverable KV Cache Channel Pruning [33.149133156465474]
大規模言語モデルにおける長文推論は、KVキャッシュのボトルネックによってますます制限される。
チャネルレベルでKVをプルーニングすることで、非構造化空間を適用できる訓練不要なプラグアンドプレイ手法であるSPARKを提案する。
SPARKはチャネルレベルの冗長性を低減し、同じメモリ予算内で長いシーケンスの処理を可能にする。
論文 参考訳(メタデータ) (2025-08-21T03:48:28Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。