論文の概要: MAC-Attention: a Match-Amend-Complete Scheme for Fast and Accurate Attention Computation
- arxiv url: http://arxiv.org/abs/2604.00235v1
- Date: Tue, 31 Mar 2026 20:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.720037
- Title: MAC-Attention: a Match-Amend-Complete Scheme for Fast and Accurate Attention Computation
- Title(参考訳): MAC-Attention: 高速かつ高精度な注意計算のためのMatch-Amend-Completeスキーム
- Authors: Jinghan Yao, Sam Adé Jacobs, Walid Krichene, Masahiro Tanaka, Dhabaleswar K Panda,
- Abstract要約: 我々は、事前の注意計算を再利用して復号化を加速する、フィデリティとアクセス保存の代替であるMAC-Attentionを導入する。
ショートローカルウィンドウ上で事前RoPE L2マッチングを実行するマッチステージから始まる。
修正段階は、マッチ境界付近の小さなバンドを再計算することにより、再利用された注意を補正する。
完全なステージは、数値的に安定なマージを介してKVテールで計算された新しい注意で修正結果を融合する。
- 参考スコア(独自算出の注目度): 3.7219056810346594
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Long-context decoding in LLMs is IO-bound: each token re-reads an ever-growing KV cache. Prior accelerations cut bytes via compression, which lowers fidelity, or selection/eviction, which restricts what remains accessible, and both can degrade delayed recall and long-form generation. We introduce MAC-Attention, a fidelity- and access-preserving alternative that accelerates decoding by reusing prior attention computations for semantically similar recent queries. It starts with a match stage that performs pre-RoPE L2 matching over a short local window; an amend stage rectifies the reused attention by recomputing a small band near the match boundary; and a complete stage fuses the rectified results with fresh attention computed on the KV tail through a numerically stable merge. On a match hit, the compute and bandwidth complexity is constant regardless of context length. The method is model-agnostic and composes with IO-aware kernels, paged-KV managers, and MQA/GQA. Across LongBench v2 (120K), RULER (120K), and LongGenBench (16K continuous generation), compared to the latest FlashInfer library, MAC-Attention reduces KV accesses by up to 99%, cuts token generation latency by over 60% at 128K, and achieves over 14.3x attention-phase speedups, up to 2.6x end-to-end, while maintaining full-attention quality. By reusing computation, MAC-Attention delivers long-context inference that is both fast and faithful. Code is available here: https://github.com/YJHMITWEB/MAC-Attention.git
- Abstract(参考訳): LLMのLong-contextデコーディングはIOバウンドで、各トークンは成長を続けるKVキャッシュを再読み取りする。
以前のアクセラレーションは圧縮によってバイトをカットし、フィデリティを下げたり、アクセス可能なものを制限する選択/消去を減らしたり、遅延リコールと長文生成を減らしたりすることができる。
我々はMAC-Attentionを導入する。MAC-Attentionは、セマンティックに類似した最近のクエリに対して、事前の注意計算を再利用することでデコーディングを高速化するフィデリティとアクセス保存の代替手段である。
ショートローカルウィンドウ上でプレRoPEL2マッチングを行うマッチステージから始まり、マッチ境界付近の小さなバンドを再計算して再利用された注意を修正し、完全ステージは、KVテールで計算された新しい注意を数値的に安定なマージを介して修正結果を融合させる。
一致したヒットでは、コンピュートと帯域幅の複雑さはコンテキスト長に関わらず一定である。
この方法はモデルに依存しず、IO対応カーネル、ページドKVマネージャ、MQA/GQAで構成される。
最新のFlashInferライブラリと比較して、LongBench v2 (120K)、RULER (120K)、LongGenBench (16K連続生成)は、MAC-AttentionはKVアクセスを最大99%削減し、128Kでトークン生成遅延を60%削減し、フルアテンション品質を維持しながら14.3倍のアテンションフェーズのスピードアップを実現している。
MAC-Attentionは計算を再利用することによって、高速かつ忠実な長文推論を提供する。
https://github.com/YJHMITWEB/MAC-Attention.git
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Efficient Low Rank Attention for Long-Context Inference in Large Language Models [41.24530756499533]
低ランククエリとキーアテンション(LRQK)は、プリフィル段階で、完全精度クエリとキー行列をコンパクトなランク-(r)要素に分解するフレームワークである。
トップ(k)トークンと、最近のトークンの小さな固定セットだけを選択することで、LRQKは、完全に精度の低いKVペアだけを転送するヒットアンドミス機構を備えた混合GPU-CPUキャッシュを使用する。
論文 参考訳(メタデータ) (2025-10-25T11:43:27Z) - InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation [56.694702609077495]
ロングシーケンス処理は、現代の大規模言語モデルにとって重要な機能である。
InfLLM-V2は、ショートシーケンスからロングシーケンスまでのモデルをシームレスに適応する訓練可能なスパースアテンションフレームワークである。
実験では、InfLLM-V2は高密度の注意より4$times$速いが、98.1%と99.7%のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-09-29T12:08:33Z) - CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression [25.190765258589707]
トレーニング不要なKVキャッシュ圧縮戦略であるRocketKVについて述べる。
第1段階では、入力シーケンストークンに対して粗粒永久KVキャッシュ消去を行う。
第2段階では、微粒のトップkスパースアテンションを行うために、ハイブリッドスパースアテンション方式を採用する。
論文 参考訳(メタデータ) (2025-02-19T19:12:46Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。