論文の概要: Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference
- arxiv url: http://arxiv.org/abs/2512.16391v1
- Date: Thu, 18 Dec 2025 10:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.012854
- Title: Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference
- Title(参考訳): Kascade: 長期LLM推論のための実用的なスパースアテンション手法
- Authors: Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, Ramachandran Ramjee,
- Abstract要約: 我々は、既知の観測値を活用する訓練不要なスパースアテンション手法であるカスケードを提案する。
Kascadeは、小さなアンカー層で正確なTop-kインデックスを計算し、それらのインデックスを中間再利用層で再利用する。
Kascadeは、H100 GPU上のFlashAttention-3ベースラインに対して、デコードアテンションの最大4.1倍、プリフィルアテンションの2.2倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 9.469995152350899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention is the dominant source of latency during long-context LLM inference, an increasingly popular workload with reasoning models and RAG. We propose Kascade, a training-free sparse attention method that leverages known observations such as 1) post-softmax attention is intrinsically sparse, and 2) the identity of high-weight keys is stable across nearby layers. Kascade computes exact Top-k indices in a small set of anchor layers, then reuses those indices in intermediate reuse layers. The anchor layers are selected algorithmically, via a dynamic-programming objective that maximizes cross-layer similarity over a development set, allowing easy deployment across models. The method incorporates efficient implementation constraints (e.g. tile-level operations), across both prefill and decode attention. The Top-k selection and reuse in Kascade is head-aware and we show in our experiments that this is critical for high accuracy. Kascade achieves up to 4.1x speedup in decode attention and 2.2x speedup in prefill attention over FlashAttention-3 baseline on H100 GPUs while closely matching dense attention accuracy on long-context benchmarks such as LongBench and AIME-24.
- Abstract(参考訳): 長期間のLLM推論における遅延の原因は注意力であり、推論モデルとRAGを備えたワークロードがますます人気になっている。
トレーニング不要なスパースアテンション手法であるKascadeを提案する。
1)ソフトマックス後の注目は本質的に疎外であり、
2) 重み付け鍵の同一性は, 近傍の層にわたって安定している。
Kascadeは、小さなアンカー層で正確なTop-kインデックスを計算し、それらのインデックスを中間再利用層で再利用する。
アンカー層は、動的プログラミングの目的によってアルゴリズム的に選択され、開発セット上の層間の類似性を最大化し、モデル間のデプロイが容易になる。
この方法は、プリフィルとデコードの両方に効率的な実装制約(例えばタイルレベルの操作)を組み込む。
KascadeのTop-k選択と再利用はヘッドアウェアであり、我々の実験でこれが高精度に重要であることを示す。
Kascadeは、H100 GPU上のFlashAttention-3ベースラインに対するデコードアテンションの最大4.1倍のスピードアップと2.2倍のスピードアップを実現している。
関連論文リスト
- FuXi-Linear: Unleashing the Power of Linear Attention in Long-term Time-aware Sequential Recommendation [86.55349738440087]
FuXi-Linearは、効率的なロングシーケンスレコメンデーションのために設計された線形複雑度モデルである。
提案手法では, 時間的データを用いて周期的注意重みを独立に計算し, 時間的信号と意味的信号のクロストークを防ぐ時間的保持チャネルと, 学習可能なカーネルを介して線形複雑度内で位置情報を統合する線形位置決めチャネルの2つの重要な要素を紹介する。
論文 参考訳(メタデータ) (2026-02-27T04:38:28Z) - Double-P: Hierarchical Top-P Sparse Attention for Long-Context LLMs [45.84463775890072]
長文推論は、大きな言語モデルの中心となる。
トップpのスパースアテンションは、アテンションの質量を直接保存し、より強力な精度保証を提供する。
既存のトップpメソッドは、トップpの精度、選択オーバーヘッド、わずかな注意コストを共同で最適化することができない。
論文 参考訳(メタデータ) (2026-02-05T01:37:10Z) - LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding [27.856769454125573]
LLM(Long-context Large Language Model)は、デコード中に急速に拡大するキーバリューキャッシュという、重要なボトルネックを露呈する。
我々は,微細なハイブリッドヘッドアテンション機構を中心とした効率的な復号法であるLycheeDecodeを提案する。
我々はLycheeDecodeが、フルアテンションベースラインに匹敵する、時には超越した生成品質を達成することを実証した。
論文 参考訳(メタデータ) (2026-02-04T13:34:12Z) - HyLRA: Hybrid Layer Reuse Attention for Efficient Long-Context Inference [11.718567830546538]
大規模言語モデルにおける長文推論は、注意の2次計算の複雑さによってボトルネックとなる。
bf HyLRAは階層ワイド・スパシティ・プロファイリングによって駆動される新しいフレームワークである。
その結果,HyLRAは推論のスループットを6%から46%向上し,同等の性能を維持していることがわかった。
論文 参考訳(メタデータ) (2026-01-31T15:36:17Z) - AttnCache: Accelerating Self-Attention Inference for LLM Prefill via Attention Cache [17.07520167324377]
大規模言語モデル(LLM)は、チャット、コード生成、推論などの生成アプリケーションで広く使われている。
我々は,LLM推論のプリフィルステージを高速化するフレームワークであるAttnCacheを提案する。
AttnCacheはCPU上でのエンド・ツー・エンドと2倍のアテンション・スピードアップ、GPU上でのエンド・ツー・エンドと3倍のアテンション・スピードアップを平均で1.2倍の精度で達成する。
論文 参考訳(メタデータ) (2025-10-29T21:26:17Z) - EARN: Efficient Inference Acceleration for LLM-based Generative Recommendation by Register Tokens [47.60523011706102]
大規模言語モデルベースの生成レコメンデーション(LLMRec)は目覚ましい成功を収めているが、高い推論遅延に悩まされている。
入力シーケンス境界に配置されたレジスタトークンに情報を圧縮するために,初期層を利用した効率的な推論フレームワークEARNを提案する。
論文 参考訳(メタデータ) (2025-07-01T12:42:06Z) - AnchorAttention: Difference-Aware Sparse Attention with Stripe Granularity [9.63873831179673]
拡張コンテキスト長を持つ大規模言語モデル(LLM)は、事前充足フェーズにおいて重大な計算上の課題に直面します。
重要な注意領域を効率よく識別する,差認識型動的スパースアテンション機構である textbfAnchorAttention を提案する。
textbfAnchorAttentionは、粒度の細かいスペーシング戦略により、同じリコールレベルでより高いスペーサ率を実現し、計算時間を著しく短縮する。
論文 参考訳(メタデータ) (2025-05-29T14:59:06Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。
実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。
各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文 参考訳(メタデータ) (2023-10-09T17:05:25Z) - Treeformer: Dense Gradient Trees for Efficient Attention Computation [24.045251327736814]
カーネルを用いて注目度、低ランク、近似などの異なる注意構造を強制することにより、注意計算を高速化する方法を示す。
このような階層的なナビゲーションに基づいて、TF-AttentionとTC-Attentionという2つの効率的な注意層のうちの1つを使用できるTreeformerを設計する。
注意層に30倍少ないFLOPを使用しながら,私たちのTreeformerアーキテクチャはベースライントランスフォーマーとほぼ同等の精度で動作可能であることを実証した。
論文 参考訳(メタデータ) (2022-08-18T18:31:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。