論文の概要: Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference
- arxiv url: http://arxiv.org/abs/2512.16391v1
- Date: Thu, 18 Dec 2025 10:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.012854
- Title: Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference
- Title(参考訳): Kascade: 長期LLM推論のための実用的なスパースアテンション手法
- Authors: Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, Ramachandran Ramjee,
- Abstract要約: 我々は、既知の観測値を活用する訓練不要なスパースアテンション手法であるカスケードを提案する。
Kascadeは、小さなアンカー層で正確なTop-kインデックスを計算し、それらのインデックスを中間再利用層で再利用する。
Kascadeは、H100 GPU上のFlashAttention-3ベースラインに対して、デコードアテンションの最大4.1倍、プリフィルアテンションの2.2倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 9.469995152350899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention is the dominant source of latency during long-context LLM inference, an increasingly popular workload with reasoning models and RAG. We propose Kascade, a training-free sparse attention method that leverages known observations such as 1) post-softmax attention is intrinsically sparse, and 2) the identity of high-weight keys is stable across nearby layers. Kascade computes exact Top-k indices in a small set of anchor layers, then reuses those indices in intermediate reuse layers. The anchor layers are selected algorithmically, via a dynamic-programming objective that maximizes cross-layer similarity over a development set, allowing easy deployment across models. The method incorporates efficient implementation constraints (e.g. tile-level operations), across both prefill and decode attention. The Top-k selection and reuse in Kascade is head-aware and we show in our experiments that this is critical for high accuracy. Kascade achieves up to 4.1x speedup in decode attention and 2.2x speedup in prefill attention over FlashAttention-3 baseline on H100 GPUs while closely matching dense attention accuracy on long-context benchmarks such as LongBench and AIME-24.
- Abstract(参考訳): 長期間のLLM推論における遅延の原因は注意力であり、推論モデルとRAGを備えたワークロードがますます人気になっている。
トレーニング不要なスパースアテンション手法であるKascadeを提案する。
1)ソフトマックス後の注目は本質的に疎外であり、
2) 重み付け鍵の同一性は, 近傍の層にわたって安定している。
Kascadeは、小さなアンカー層で正確なTop-kインデックスを計算し、それらのインデックスを中間再利用層で再利用する。
アンカー層は、動的プログラミングの目的によってアルゴリズム的に選択され、開発セット上の層間の類似性を最大化し、モデル間のデプロイが容易になる。
この方法は、プリフィルとデコードの両方に効率的な実装制約(例えばタイルレベルの操作)を組み込む。
KascadeのTop-k選択と再利用はヘッドアウェアであり、我々の実験でこれが高精度に重要であることを示す。
Kascadeは、H100 GPU上のFlashAttention-3ベースラインに対するデコードアテンションの最大4.1倍のスピードアップと2.2倍のスピードアップを実現している。
関連論文リスト
- AttnCache: Accelerating Self-Attention Inference for LLM Prefill via Attention Cache [17.07520167324377]
大規模言語モデル(LLM)は、チャット、コード生成、推論などの生成アプリケーションで広く使われている。
我々は,LLM推論のプリフィルステージを高速化するフレームワークであるAttnCacheを提案する。
AttnCacheはCPU上でのエンド・ツー・エンドと2倍のアテンション・スピードアップ、GPU上でのエンド・ツー・エンドと3倍のアテンション・スピードアップを平均で1.2倍の精度で達成する。
論文 参考訳(メタデータ) (2025-10-29T21:26:17Z) - AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity [9.63873831179673]
拡張コンテキスト長を持つ大規模言語モデル(LLM)は、事前充足フェーズにおいて重大な計算上の課題に直面します。
重要な注意領域を効率よく識別する,差認識型動的スパースアテンション機構である textbfAnchorAttention を提案する。
textbfAnchorAttentionは、粒度の細かいスペーシング戦略により、同じリコールレベルでより高いスペーサ率を実現し、計算時間を著しく短縮する。
論文 参考訳(メタデータ) (2025-05-29T14:59:06Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。
実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。
各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文 参考訳(メタデータ) (2023-10-09T17:05:25Z) - Treeformer: Dense Gradient Trees for Efficient Attention Computation [24.045251327736814]
カーネルを用いて注目度、低ランク、近似などの異なる注意構造を強制することにより、注意計算を高速化する方法を示す。
このような階層的なナビゲーションに基づいて、TF-AttentionとTC-Attentionという2つの効率的な注意層のうちの1つを使用できるTreeformerを設計する。
注意層に30倍少ないFLOPを使用しながら,私たちのTreeformerアーキテクチャはベースライントランスフォーマーとほぼ同等の精度で動作可能であることを実証した。
論文 参考訳(メタデータ) (2022-08-18T18:31:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。