論文の概要: Sparse Attention across Multiple-context KV Cache
- arxiv url: http://arxiv.org/abs/2508.11661v1
- Date: Wed, 06 Aug 2025 02:53:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-24 10:27:26.483108
- Title: Sparse Attention across Multiple-context KV Cache
- Title(参考訳): マルチコンテキストKVキャッシュにおけるスパースアテンション
- Authors: Ziyi Cao, Qingyi Si, Jingbin Zhang, Bingquan Liu,
- Abstract要約: 推論効率を改善するために、履歴キーバリュー(KV)キャッシュを再利用することは、主流のアプローチとなっている。
近年の進歩は、KVキャッシュを選択できるスパースアテンション機構によってスループットをさらに向上させる。
本論文では,マルチコンテキストKVキャッシュにおける注意スペーシフィケーションの最初の調査であるSamKVについて述べる。
- 参考スコア(独自算出の注目度): 8.236266965773465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models face significant cost challenges in long-sequence inference. To address this, reusing historical Key-Value (KV) Cache for improved inference efficiency has become a mainstream approach. Recent advances further enhance throughput by sparse attention mechanisms to select the most relevant KV Cache, thereby reducing sequence length. However, such techniques are limited to single-context scenarios, where historical KV Cache is computed sequentially with causal-attention dependencies. In retrieval-augmented generation (RAG) scenarios, where retrieved documents as context are unknown beforehand, each document's KV Cache is computed and stored independently (termed multiple-context KV Cache), lacking cross-attention between contexts. This renders existing methods ineffective. Although prior work partially recomputes multiple-context KV Cache to mitigate accuracy loss from missing cross-attention, it requires retaining all KV Cache throughout, failing to reduce memory overhead. This paper presents SamKV, the first exploration of attention sparsification for multiple-context KV Cache. Specifically, SamKV takes into account the complementary information of other contexts when sparsifying one context, and then locally recomputes the sparsified information. Experiments demonstrate that our method compresses sequence length to 15% without accuracy degradation compared with full-recompuation baselines, significantly boosting throughput in multi-context RAG scenarios.
- Abstract(参考訳): 大規模言語モデルは、ロングシーケンス推論において大きなコストの課題に直面している。
これを解決するために、推論効率を改善するために履歴キーバリュー(KV)キャッシュを再利用することが主流のアプローチとなっている。
近年,KVキャッシュの選択に注意機構をスパースすることでスループットが向上し,シーケンス長の低減が図られている。
しかし、そのような手法は単一のコンテキストシナリオに限られており、歴史的なKVキャッシュは因果関係に依存して逐次計算される。
検索拡張生成(RAG)シナリオでは、検索された文書が事前にコンテキストとして未知である場合、各文書のKVキャッシュは独立して計算され、保存される(複数コンテキストのKVキャッシュと呼ばれる)。
これは既存のメソッドを無効にする。
以前の作業では、複数コンテキストのKVキャッシュを部分的に再計算して、クロスアテンションの欠如による正確さの損失を軽減するが、すべてのKVキャッシュを維持する必要があり、メモリオーバーヘッドを削減できない。
本論文では,マルチコンテキストKVキャッシュにおける注意スペーシフィケーションの最初の調査であるSamKVについて述べる。
具体的には、SamKVは、あるコンテキストをスパース化する際に他のコンテキストの補完的な情報を考慮し、その後、スパス化された情報を局所的に再計算する。
実験により,提案手法は完全再コンパイルベースラインと比較して精度の低下を伴わずにシーケンス長を15%まで圧縮し,マルチコンテキストRAGシナリオのスループットを著しく向上することを示した。
関連論文リスト
- Retrospective Sparse Attention for Efficient Long-Context Generation [5.562294018150909]
RetroAttentionは、後続の復号ステップから新たに到着したKVエントリを使用して、過去の注意出力を遡及的に更新する。
これは固定アテンション・アウトプットのパラダイムを破り、事前近似の継続的な修正を可能にする。
実験により、RetroAttention は最先端(SOTA) KV 圧縮法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-08-12T15:11:47Z) - KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction [37.489744618357655]
トランスフォーマーベースの大規模言語モデル(LLM)は、推論中にキー値(KV)ペアとしてキャッシュコンテキストを持つ。
コンテキストの長さが大きくなると、KVキャッシュのサイズが拡大し、メモリオーバーヘッドが大きくなり、注意の遅延が増大する。
本稿では,クエリに依存しないKVキャッシュ消去手法であるKVzipを紹介する。
論文 参考訳(メタデータ) (2025-05-29T13:05:47Z) - FlowKV: Enhancing Multi-Turn Conversational Coherence in LLMs via Isolated Key-Value Cache Management [27.734106884226005]
FlowKVはKVキャッシュ管理のための新しいマルチターン分離機構である。
蓄積された圧縮KVキャッシュを過去のターンから保存する。
古い文脈の再圧縮を防ぎ、破滅的な忘れを和らげる。
論文 参考訳(メタデータ) (2025-05-21T10:20:46Z) - KeepKV: Eliminating Output Perturbation in KV Cache Compression for Efficient LLMs Inference [16.53643930310808]
KeepKVは、厳しいメモリ制約下で性能を保ちながら出力摂動を排除するために設計された、新しい適応KVキャッシュマージ手法である。
KeepKVはメモリ使用量を大幅に削減し、推論スループットを2倍以上に向上し、10%のKVキャッシュ予算でも優れた生成品質を維持している。
論文 参考訳(メタデータ) (2025-04-14T06:58:00Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse [35.97391418064724]
KVLinkは、大規模言語モデル(LLM)における効率的なキー値(KV)キャッシュ再利用のためのアプローチである。
KVLinkは、連結後のグローバルな位置と一致するように、推論時にKVキャッシュの位置埋め込みを調整することと、自己注意を回復するためにトレーニング可能な特別なトークンを使用することである。
7つのデータセットにわたる実験によると、KVLinkは最先端の手法よりも平均4%の精度で質問応答を改善する。
論文 参考訳(メタデータ) (2025-02-21T23:34:29Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。