論文の概要: Scout Before You Attend: Sketch-and-Walk Sparse Attention for Efficient LLM Inference
- arxiv url: http://arxiv.org/abs/2602.07397v1
- Date: Sat, 07 Feb 2026 06:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.601641
- Title: Scout Before You Attend: Sketch-and-Walk Sparse Attention for Efficient LLM Inference
- Title(参考訳): 効率的なLSM推論のためのスケッチアンドウォークスパースアテンション(Scetch-and-Walk Sparse Attention)
- Authors: Hoang Anh Duy Le, Sahil Joshi, Zeyu Yang, Zhaozhuo Xu, Anshumali Shrivastava,
- Abstract要約: トレーニング不要なスパースアテンション手法であるSketch&Walk Attentionを導入する。
軽量なスケッチと決定論的ウォークで空間性を決定する。
最大6倍の推論スピードアップを達成しながら、いくつかの設定で集中的な注意をわずかに上回ります。
- 参考スコア(独自算出の注目度): 34.96871737819456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-attention dominates the computational and memory cost of long-context LLM inference across both prefill and decode phases. To address this challenge, we introduce Sketch&Walk Attention, a training-free sparse attention method that determines sparsity with lightweight sketches and deterministic walk. Sketch&Walk applies Hadamard sketching to get inexpensive approximations of attention scores, then aggregates these estimates across layers via a walk mechanism that captures attention influence beyond direct interactions between tokens. The accumulated walk scores are used to select top-k attention blocks, enabling dynamic sparsity with a single training-free algorithm that applies uniformly to both the prefill and decode phases, together with custom sparse attention kernels. Across a wide range of models and tasks, Sketch&Walk maintains near-lossless accuracy at 20% attention density and can slightly outperform dense attention in some settings, while achieving up to 6x inference speedup.
- Abstract(参考訳): 自己注意(Self-attention)は、プリフィルとデコードの両方のフェーズにわたる長文LLM推論の計算とメモリコストを支配している。
この課題に対処するために、スケッチ&ウォーク注意法(Sketch&Walk Attention)を導入する。
Sketch&Walkは、Adamardのスケッチを適用して、アテンションスコアの安価な近似を取得し、それらの見積を、トークン間の直接的な相互作用を超えたアテンションの影響を捉えるウォークメカニズムを通じて階層に集約する。
蓄積されたウォークスコアはトップkのアテンションブロックを選択するために使用され、単一のトレーニング不要のアルゴリズムで、カスタムのスパースアテンションカーネルとともにプリフィルとデコードの両方に均一に適用される。
広範囲のモデルとタスクにおいて、Sketch&Walkは20%の注意密度でほぼロスレスの精度を維持し、いくつかの設定では集中した注意をわずかに上回り、最大6倍の推論スピードアップを達成することができる。
関連論文リスト
- Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference [9.469995152350899]
我々は、既知の観測値を活用する訓練不要なスパースアテンション手法であるカスケードを提案する。
Kascadeは、小さなアンカー層で正確なTop-kインデックスを計算し、それらのインデックスを中間再利用層で再利用する。
Kascadeは、H100 GPU上のFlashAttention-3ベースラインに対して、デコードアテンションの最大4.1倍、プリフィルアテンションの2.2倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-12-18T10:37:14Z) - DELTA: Dynamic Layer-Aware Token Attention for Efficient Long-Context Reasoning [6.468843780300177]
モデル精度を犠牲にすることなく計算効率を向上する訓練不要なスパースアテンション機構である textbfDELTA を提案する。
この結果から,中間注意マップの選択的再利用は,より効率的な長文推論への頑健な道を提供することが示された。
論文 参考訳(メタデータ) (2025-10-10T21:37:49Z) - Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - AttentionPredictor: Temporal Patterns Matter for KV Cache Compression [64.75459635661562]
我々は,KVキャッシュ圧縮とクリティカルトークン識別のための注意パターンを直接予測する,学習に基づく最初の手法であるAttentionPredictorを提案する。
AttentionPredictorは、注意スコアを正確に予測し、無視可能なメモリを消費する統一予測モデルを共有する。
注意情報の大半を保持することで、AttentionPredictorは、キャッシュオフロードシナリオで13$times$KVキャッシュ圧縮と5.6$times$スピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。