論文の概要: Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space
- arxiv url: http://arxiv.org/abs/2510.04476v1
- Date: Mon, 06 Oct 2025 04:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.676907
- Title: Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space
- Title(参考訳): 圧縮型畳み込み注意:圧縮型潜在空間における効率的な留意
- Authors: Tomas Figliolia, Nicholas Alonso, Rishi Iyer, Quentin Anthony, Beren Millidge,
- Abstract要約: MHA(Multi-headed Attention's)の二次計算と線形に成長するKV-cacheは、長いコンテキストトランスフォーマーの訓練と提供に費用がかかる。
本稿では,CCA(Compressed Convolutional Attention)を提案する。クエリ,キー,値をダウンプロジェクションし,共有潜在空間内でのアテンション操作全体を実行する新しいアテンション手法である。
実験の結果、CCGQAはGQA(Grouped Query Attention)とMLA(Multi-Latent Attention)の両方を高密度モデルとMoEモデルで同等のKV-cache圧縮で一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 12.98205656003145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-headed Attention's (MHA) quadratic compute and linearly growing KV-cache make long-context transformers expensive to train and serve. Prior works such as Grouped Query Attention (GQA) and Multi-Latent Attention (MLA) shrink the cache, speeding decode, but leave compute, which determines prefill and training speed, largely unchanged. We introduce Compressed Convolutional Attention (CCA), a novel attention method which down-projects queries, keys, and values and performs the entire attention operation inside the shared latent space. This simple design dramatically cuts parameters, KV-cache, and FLOPs all at once by the desired compression factor. Because CCA is orthogonal to head-sharing, we combine the two to form Compressed Convolutional Grouped Query Attention (CCGQA), which further tightens the compute-bandwidth Pareto frontier so that users can tune compression toward either FLOP or memory limits without sacrificing quality. Experiments show that CCGQA consistently outperforms both GQA and MLA at equal KV-cache compression on dense and MoE models. Additionally, we show that CCGQA outperforms all other attention methods on MoE models with half the KV-cache of GQA and MLA, achieving an 8x KV-cache compression with no drop in performance compared to standard MHA. CCA and CCGQA also dramatically reduce the FLOP cost of attention which leads to substantially faster training and prefill than existing methods. On H100 GPUs, our fused CCA/CCGQA kernel reduces prefill latency by about 1.7x at a sequence length of 16k relative to MHA, and accelerates backward by about 1.3x.
- Abstract(参考訳): MHA(Multi-headed Attention's)の二次計算と線形に成長するKV-cacheは、長いコンテキストトランスフォーマーの訓練と提供に費用がかかる。
Grouped Query Attention (GQA)やMulti-Latent Attention (MLA)といった以前の作業はキャッシュを縮小し、デコードを高速化するが、プリフィルとトレーニングの速度を決定する計算は、ほとんど変わらない。
本稿では,CCA(Compressed Convolutional Attention)を提案する。クエリ,キー,値をダウンプロジェクションし,共有潜在空間内でのアテンション操作全体を実行する新しいアテンション手法である。
この単純な設計は、パラメータ、KV-cache、FLOPを所望の圧縮係数で同時に削減する。
CCAはヘッドシェアリングと直交するので、この2つを組み合わせてCompressed Convolutional Grouped Query Attention (CCGQA) を形成します。
実験の結果、CCGQAは密度モデルとMoEモデルにおいて、GQAとMLAの両方で同等なKV-cache圧縮で一貫して優れていた。
さらに、CCGQAは、GQAとMLAの半分のKVキャッシュを持つMoEモデルにおいて、標準のMHAと比較して8倍のKVキャッシュ圧縮を実現し、他のすべての注意方法よりも優れていることを示す。
CCAとCCGQAはまた、FLOPの注意コストを劇的に削減し、既存の方法よりもトレーニングとプリフィルが大幅に速くなりました。
H100 GPUでは、融合CCA/CCGQAカーネルは、MHAと比較して16kのシーケンス長で、プリフィルのレイテンシを約1.7倍削減し、約1.3倍高速化する。
関連論文リスト
- HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。
我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。
また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文 参考訳(メタデータ) (2025-07-26T06:43:14Z) - ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。
キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。
本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文 参考訳(メタデータ) (2025-05-30T08:49:27Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。
CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。
我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文 参考訳(メタデータ) (2024-09-16T17:36:50Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。