論文の概要: Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference
- arxiv url: http://arxiv.org/abs/2602.08329v1
- Date: Mon, 09 Feb 2026 07:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.095806
- Title: Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference
- Title(参考訳): ロングコンテキスト推論のためのプレホックスパシティによるOracle近距離KV選択
- Authors: Yifei Gao, Lei Wang, Rong-Cheng Tu, Qixin Zhang, Jun Cheng, Dacheng Tao,
- Abstract要約: 本稿では,注意スコアの前にKVエントリを選択し,明示的な精度制御を行うプリホックスパシティ(PrHS)を提案する。
PrHSは検索オーバーヘッドを90%以上削減し、HShareよりも3倍高い精度で検索できる。
これはLongBenchの平均劣化率を1%以下に抑え、FLOPを約15%減らし、9.9倍のレイテンシと2.8倍のスループットを得る。
- 参考スコア(独自算出の注目度): 54.467557491325046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A core bottleneck in large language model (LLM) inference is the cost of attending over the ever-growing key-value (KV) cache. Although near-oracle top-k KV selection can preserve the quality of dense attention while sharply reducing computation and bandwidth, existing sparse methods generally rely on posterior heuristics, i.e., selectors conditioned on observed attention or proxy scores. Such conditioning introduces posterior bias: it tends to distort true token importance and miss salient tokens, thereby impairing long-range reasoning. To tackle this problem, we propose Pre-hoc Sparsity (PrHS), which selects KV entries before attention scoring and provides explicit accuracy control. Let the attention mass of discarded entries be delta (the dropped mass). Through a marginal-to-mutual-information analysis, we derive an upper bound on the mutual-information loss that depends only on the dropped mass. This relation explains failure modes of posterior heuristics and enables verifiable guarantees by controlling the dropped mass in advance. Within PrHS, we instantiate three orthogonal pre-hoc selectors along the axes of time, depth, and layer. Extensive experiments on LLaMA and Mistral families validate PrHS. Across GSM8K and CoQA, PrHS reduces retrieval overhead by over 90%, achieving 3x higher retrieval sparsity than HShare at matched or better accuracy. It incurs under 1% average degradation on LongBench, lowers attention FLOPs by about 15% versus prior sparse baselines, and yields a 9.9x speedup in attention-operator latency and 2.8x higher throughput on NVIDIA A100-80GB GPUs than the dense baseline.
- Abstract(参考訳): 大規模言語モデル(LLM)推論における中核的なボトルネックは、成長を続けるキーバリュー(KV)キャッシュへの参加コストである。
ほぼ円に近いトップkのKV選択は、計算と帯域幅を著しく減らしながら、密集した注意の質を維持することができるが、既存のスパース法は一般に後部ヒューリスティック、すなわち、観察された注意やプロキシスコアに依存するセレクタに依存している。
このような条件付けは後続バイアスをもたらし、真のトークンの重要性を歪め、正当性トークンを見逃す傾向があり、これにより長距離の推論を損なう。
この問題に対処するために,注意スコアの前にKVエントリを選択し,明確な精度制御を提供するPrHS(Pre-hoc Sparsity)を提案する。
捨てられた項目の注意質量をデルタ(落下質量)とする。
差分-相互情報解析により、落下質量のみに依存する相互情報損失の上限を導出する。
この関係は後部ヒューリスティックスの故障モードを説明し、落下した質量を予め制御することで検証可能な保証を可能にする。
PrHSでは、時間、深さ、層の軸に沿って直交する3つのプレホックセレクタをインスタンス化する。
LLaMAおよびMistralファミリーに関する大規模な実験はPrHSを検証する。
GSM8K と CoQA 全体で PrHS は検索オーバーヘッドを90%以上削減し,HShare よりも3倍高い検索間隔を実現する。
これはLongBenchの平均劣化率を1%以下に抑え、FLOPを約15%減らし、高密度のベースラインよりも9.9倍、NVIDIA A100-80GBの2.8倍のスループットを持つ。
関連論文リスト
- QUOKA: Query-Oriented KV Selection For Efficient LLM Prefill [5.014026212750645]
提案するQUoka: クエリ指向のKV選択を効率よく注目する。
その結果,QUokaは注目度評価あたりのキー値ペアを88%減らし,ほぼベースライン精度を実現していることがわかった。
論文 参考訳(メタデータ) (2026-02-09T14:32:26Z) - Predicting Future Utility: Global Combinatorial Optimization for Task-Agnostic KV Cache Eviction [19.14455067106419]
現在のKVキャッシュ消去法は、すべての頭において重要な指標としてスコアが一貫したプロキシであることを暗黙的に仮定して、瞬時メトリクスに依存している。
本稿では,長期的セマンティック情報を保存する上で,最適予算配分は限界効用によって管理されるべきであることを示す。
LU-KVの実践的展開を容易にするために,データ駆動型オフラインプロファイリングプロトコルを実装した。
論文 参考訳(メタデータ) (2026-02-09T12:23:38Z) - KQ-SVD: Compressing the KV Cache with Provable Guarantees on Attention Fidelity [6.542188603141656]
キーバリューキャッシュは、大きな言語モデルの効率の中心である。
シーケンスの長さとバッチサイズが大きくなると、キャッシュは大きなメモリボトルネックとなる。
我々は,注目行列の最適低ランク分解を直接行う,単純で効率的なKQ-SVDを提案する。
論文 参考訳(メタデータ) (2025-12-05T17:51:10Z) - vAttention: Verified Sparse Attention [100.98210818821688]
vAttentionは、ユーザが指定した$(epsilon, delta)$の近似精度保証(thus, confirmed)を備えた実用的なスパースアテンションメカニズムである。
vAttentionはデータセット間のスパースアテンションの質を大幅に改善することを示す。
モデルの品質を損なうことなく高速なデコードを実現するために、推論シナリオにデプロイすることができる。
論文 参考訳(メタデータ) (2025-10-07T08:46:08Z) - Value-Guided KV Compression for LLMs via Approximated CUR Decomposition [24.262712463465665]
CurDKVは、CUR行列分解から計算したレバレッジスコアに基づいてキーと値を選択する、新しい、値中心のKV圧縮手法である。
我々のアプローチは、注意出力$softmax(QKT)V$の支配的部分空間を近似し、保持されたトークンがモデルの予測挙動を最善に維持することを保証する。
論文 参考訳(メタデータ) (2025-09-18T15:04:06Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Predicting Overtakes in Trucks Using CAN Data [51.28632782308621]
CANデータからトラックの積載量の検出について検討する。
私たちの分析では、オーバーテイクイベントの最大10秒前をカバーしています。
我々は、オーバーテイク・トリガーに近づくと、オーバーテイク・クラスの予測スコアが増加する傾向にあることを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:58:22Z) - Certified Error Control of Candidate Set Pruning for Two-Stage Relevance
Ranking [57.42241521034744]
本稿では、妥当性ランキングのための候補セットプルーニングの認証エラー制御の概念を提案する。
提案手法は,第1段階から抽出した候補集合を抽出し,第2段階の復位速度を向上する。
論文 参考訳(メタデータ) (2022-05-19T16:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。