論文の概要: EntmaxKV: Support-Aware Decoding for Entmax Attention
- arxiv url: http://arxiv.org/abs/2605.21649v1
- Date: Wed, 20 May 2026 19:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.965928
- Title: EntmaxKV: Support-Aware Decoding for Entmax Attention
- Title(参考訳): EntmaxKV: Entmax注意のためのサポート対応デコーディング
- Authors: Gonçalo Duarte, Miguel Couceiro, Marcos V. Treviso,
- Abstract要約: EntmaxKVは、KVページがロードされる前にスパース性を利用する、entmaxネイティブなスパースデコーディングフレームワークである。
その結果,出力誤差が$$で制御され,entmaxサポートが回復すると消滅することがわかった。
長期コンテキストと言語モデリングのベンチマークでは、KVキャッシュのごく一部を使用しながらフルキャッシュのentmaxと密に一致し、最大3.36times$(softmax)と5.43times$(entmax)のスピードアップを1Mコンテキストで実行している。
- 参考スコア(独自算出の注目度): 5.759250057973468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context decoding is increasingly limited by KV-cache memory traffic since each generated token attends over a cache whose size grows linearly with context length. Existing sparse decoding methods reduce this cost by selecting subsets of tokens or pages, but are designed for softmax attention, whose dense tails make any truncation discard nonzero probability mass. In contrast, $α$-entmax produces exact zeros, turning sparse decoding from dense-tail approximation into support recovery: if the selected candidates contain the entmax support, sparse decoding remains exact. While recent entmax kernels enable efficient training, they do not address the autoregressive decoding bottleneck, where dense inference still streams the full KV cache before sparsity is known. In this work, we introduce EntmaxKV, an entmax-native sparse decoding framework that exploits sparsity before KV pages are loaded. EntmaxKV combines query-aware page scoring, support-aware candidate selection, and sparse entmax attention. We analyze truncation error through the dropped probability mass $δ$, showing that output error is controlled by $δ$ and vanishes when the entmax support is recovered. We further introduce a Gaussian-aware entmax selector that estimates the entmax threshold from lightweight page statistics, adapting the selected budget to the score distribution. Empirically, EntmaxKV drops less probability mass, retains more support tokens, and achieves lower output error than softmax-based sparse decoding at matched KV budgets. On long-context and language modeling benchmarks, it closely matches full-cache entmax while using a small fraction of the KV cache, achieving up to $3.36\times$ (softmax) and $5.43\times$ (entmax) speedup over full attention baselines at 1M context length. Code available at: https://github.com/deep-spin/entmaxkv.
- Abstract(参考訳): 長いコンテキストの復号化は、各生成されたトークンがコンテキスト長とともに線形に成長するキャッシュに付随するため、KVキャッシュメモリトラフィックによってますます制限される。
既存のスパース復号法では、トークンやページのサブセットを選択することで、このコストを削減するが、ソフトマックスアテンションのために設計されている。
対照的に、$α$-entmax は正確な零点を生成し、密度の高いテール近似からスパースデコーディングをサポートリカバリに変換する: 選択された候補がentmax サポートを含んでいる場合、スパースデコーディングは依然として正確である。
最近のentmaxカーネルは効率的なトレーニングを可能にするが、疎結合が知られる前に、高密度な推論が完全なKVキャッシュをストリーミングする自動回帰デコードボトルネックには対処しない。
本稿では,KVページがロードされる前の空間性を利用する,entmaxネイティブなスパースデコーディングフレームワークであるEntmaxKVを紹介する。
EntmaxKVは、クエリ対応ページのスコアリング、サポート対応候補の選択、スパースentmaxアテンションを組み合わせたものだ。
減少確率質量$δ$を用いてトラクション誤差を分析し、出力誤差が$δ$で制御され、entmaxサポートが回復されたときに消滅することを示す。
さらに、軽量なページ統計量からentmax閾値を推定し、選択した予算をスコア分布に適応させるガウス対応entmaxセレクタを導入する。
経験的に、EntmaxKVは確率質量を減らし、より多くのサポートトークンを保持し、一致するKV予算でのソフトマックスベースのスパースデコーディングよりも低い出力誤差を達成する。
長期コンテキストと言語モデリングのベンチマークでは、KVキャッシュのごく一部を使用しながらフルキャッシュのentmaxと密に一致し、最大$3.36\times$(softmax)と$5.43\times$(entmax)のスピードアップを1Mコンテキストで達成している。
コードは、https://github.com/deep-spin/entmaxkv.comで入手できる。
関連論文リスト
- Stochastic Sparse Attention for Memory-Bound Inference [19.301894658575502]
SANTA(Additive No-mult Attention)は,ソフトマックス後の分布から$S ll n_k$インデックスをサンプリングすることで,値キャッシュアクセスを分散する手法である。
また、スコアステージをスパース化するための補完手法としてBernoulli $qKmathsfT$サンプリングを提案する。
論文 参考訳(メタデータ) (2026-05-03T14:44:14Z) - ZoomR: Memory Efficient Reasoning through Multi-Granularity Key Value Retrieval [58.575695990976136]
大規模言語モデル(LLM)は複雑な推論タスクにおいて優れたパフォーマンスを示している。
LLMは、最終的な答えに到達する前に、長い中間的思考を生成する必要があることが多い。
我々は,LLMが動詞の推論思考を要約に適応的に圧縮することを可能にする新しいアプローチであるZoomRを紹介する。
論文 参考訳(メタデータ) (2026-04-13T02:00:35Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - Long-Context Generalization with Sparse Attention [21.400056571592277]
トランスフォーマーベースのアーキテクチャは、伝統的に注意重みを計算するためにソフトマックスを使用している。
シーケンス長が増加するにつれて、非情報的トークンは注意確率の質量を蓄積し、分散と表現的崩壊をもたらす。
我々は、$alpha$-entmaxを使って動的にスパースな注意機構がこれらの問題を回避できることを示し、これは、無関係トークンに正確なゼロを割り当てる能力のためである。
論文 参考訳(メタデータ) (2025-06-19T22:43:25Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - MultiMax: Sparse and Multi-Modal Attention Learning [60.49318008131978]
SoftMaxは現代の機械学習アルゴリズムのユビキタスな成分である。
分散性はSoftMaxの変種族によって達成できるが、それらはしばしば代替損失関数を必要とし、多重モダリティを保たない。
入力入力範囲に応じて出力分布を適応的に変調するMultiMaxを提案する。
論文 参考訳(メタデータ) (2024-06-03T10:51:43Z) - Speeding Up Entmax [9.719519626494915]
Softmaxは、ロジットの正規化に関して、現代のニューラルネットワークにおける言語処理のデファクトスタンダードである。
本稿では,その厳密な特性を保ちながら,ソフトマックスに匹敵する高速で,機械翻訳タスクにおいて同等以上の性能を達成できる$alpha$-entmaxの代替案を提案する。
論文 参考訳(メタデータ) (2021-11-12T17:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。