論文の概要: CSAttention: Centroid-Scoring Attention for Accelerating LLM Inference
- arxiv url: http://arxiv.org/abs/2604.08584v1
- Date: Mon, 30 Mar 2026 01:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.461869
- Title: CSAttention: Centroid-Scoring Attention for Accelerating LLM Inference
- Title(参考訳): CSAttention: LLM推論の高速化のためのCentroid-Scoring Attention
- Authors: Chuxu Song, Zhencan Peng, Jiuqi Wei, Chuanhui Yang,
- Abstract要約: CSAttention(Centroid-Scoring Attention)は、高スループットコンテキストに最適化された訓練不要のスパースアテンション手法である。
計算処理を1回のオフラインプリフィルフェーズにフロントロードし、複数のクエリでアモートできる。
モデル精度と推論速度の両方において、最先端のスパースアテンション手法より一貫して優れている。
- 参考スコア(独自算出の注目度): 3.1255988998610307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context LLMs increasingly rely on extended, reusable prefill prompts for agents and domain Q&A, pushing attention and KV-cache to become the dominant decode-time bottlenecks. While sparse attention reduces computation and transfer costs, it often struggles to maintain accuracy at high sparsity levels due to the inherent distribution shift between Queries and Keys. We propose Centroid-Scoring Attention (CSAttention), a training-free sparse attention method optimized for high-throughput serving of reusable contexts. CSAttention adopts a storage-for-computation strategy tailored to the offline-prefill/online-decode setting: it front-loads computation into a one-time offline prefill phase that can be amortized across multiple queries, while aggressively optimizing per-step decoding latency. Specifically, CSAttention constructs query-centric lookup tables during offline prefill, whose size remains fixed during decoding, and enables online decoding to replace full-context scans with efficient table lookups and GPU-friendly score accumulation. Extensive experiments demonstrate that CSAttention achieves near-identical accuracy to full attention. Under high sparsity (95%) and long-context settings (32K-128K), CSAttention consistently outperforms state-of-the-art sparse attention methods in both model accuracy and inference speed, achieving up to 4.6x inference speedup over the most accurate baseline at a context length of 128K.
- Abstract(参考訳): 長いコンテキストのLLMは、エージェントとドメインQ&Aのための拡張された再利用可能なプリフィルプロンプトにますます依存し、注意を喚起し、KVキャッシュが主要なデコード時間のボトルネックとなる。
スパースアテンションは計算と転送コストを削減しますが、キューとキーの間に固有の分散シフトがあるため、高い疎度で精度を維持するのに苦労することが多いのです。
CSAttention(Centroid-Scoring Attention)は、再利用可能なコンテキストの高スループット提供に最適化された訓練不要なスパースアテンション手法である。
CSAttentionはオフラインのプリフィル/オンライン・デコード設定に合わせたストレージ・フォー・コンピュテーション・ストラテジを採用している。複数のクエリにまたがってアモート可能な1時間のオフライン・プリフィルフェーズに、計算処理をフロントロードすると同時に、ステップ毎のデコードレイテンシを積極的に最適化する。
具体的には、CSAttentionはオフラインのプリフィル中にクエリ中心のルックアップテーブルを構築し、デコード時にサイズが固定され、オンラインデコードにより、フルコンテキストのスキャンを効率的なテーブルルックアップとGPUフレンドリなスコアの蓄積に置き換えることができる。
広範囲な実験により、CSAttentionは全注意にほぼ同一の精度を達成していることが示された。
高間隔 (95%) と長コンテキスト設定 (32K-128K) の下では、CSAttention はモデル精度と推論速度の両方において常に最先端のスパースアテンション手法より優れ、コンテキスト長128Kで最も正確なベースライン上で最大4.6倍の推論スピードアップを達成する。
関連論文リスト
- Slow-Fast Inference: Training-Free Inference Acceleration via Within-Sentence Support Stability [61.28049899686214]
本稿では,生成を低コストの高速ステップと時折高密度の低速ステップに分解する,学習不要な復号化フレームワークを提案する。
評価されたコンテキスト長全体にわたって、SFIは約1.6times$--14.4times$高い復号スループットを提供する。
論文 参考訳(メタデータ) (2026-03-12T15:14:48Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference [27.69137902678418]
RetroInferは、長文推論を加速するために固有の注意空間を利用する新しいシステムである。
KVキャッシュがCPUメモリに拡張された場合、GPUメモリリミット内では4.5倍のスピードアップと、スムーズなアテンションベースライン上で最大10.5倍のスピードアップを示します。
論文 参考訳(メタデータ) (2025-05-05T18:01:17Z) - Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - CritiPrefill: A Segment-wise Criticality-based Approach for Prefilling Acceleration in LLMs [8.649971923487835]
本稿では,CritiPrefillを提案する。
CritiPrefillは、入力シーケンスのクエリとKVキャッシュをセグメントとブロックに分割する。
複数の長コンテキストデータセットの大規模な評価では、Llama3-8Bで2.7倍、Yi-9Bで3.0倍、単一のA100 GPUで128Kのコンテキスト長を持つ。
論文 参考訳(メタデータ) (2024-09-19T06:09:56Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。