論文の概要: SpecAttn: Speculating Sparse Attention
- arxiv url: http://arxiv.org/abs/2510.27641v1
- Date: Fri, 31 Oct 2025 17:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.176575
- Title: SpecAttn: Speculating Sparse Attention
- Title(参考訳): SpecAttn: スパースアテンションの推測
- Authors: Harsh Shah,
- Abstract要約: SpecAttnは、投機的復号化技術とシームレスに統合する、新しいトレーニング不要のアプローチである。
私たちの重要な洞察は、投機的復号中にドラフトモデルによって既に計算されている注意重みを利用して、ターゲットモデルの重要なトークンを特定することです。
SpecAttnは、PG-19データセットのパープレキシティをわずか15.29%増加させ、キー値キャッシュアクセスを75%以上削減する。
- 参考スコア(独自算出の注目度): 1.6921396880325779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) face significant computational bottlenecks during inference due to the quadratic complexity of self-attention mechanisms, particularly as context lengths increase. We introduce SpecAttn, a novel training-free approach that seamlessly integrates with existing speculative decoding techniques to enable efficient sparse attention in pre-trained transformers. Our key insight is to exploit the attention weights already computed by the draft model during speculative decoding to identify important tokens for the target model, eliminating redundant computation while maintaining output quality. SpecAttn employs three core techniques: KL divergence-based layer alignment between draft and target models, a GPU-optimized sorting-free algorithm for top-p token selection from draft attention patterns, and dynamic key-value cache pruning guided by these predictions. By leveraging the computational work already performed in standard speculative decoding pipelines, SpecAttn achieves over 75% reduction in key-value cache accesses with a mere 15.29% increase in perplexity on the PG-19 dataset, significantly outperforming existing sparse attention methods. Our approach demonstrates that speculative execution can be enhanced to provide approximate verification without significant performance degradation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に文脈長が増加するにつれて、自己認識機構の二次的な複雑さのために、推論中に重要な計算ボトルネックに直面している。
SpecAttnは、既存の投機的復号化技術とシームレスに統合し、事前学習されたトランスフォーマーにおける効率的なスパースアテンションを実現する新しいトレーニングフリーアプローチである。
我々の重要な洞察は、投機的復号中にドラフトモデルによって既に計算された注意重みを利用して、ターゲットモデルの重要なトークンを特定し、出力品質を維持しながら冗長な計算をなくすことである。
SpecAttnは、ドラフトモデルとターゲットモデル間のKL分散ベースの層アライメント、ドラフトアテンションパターンからトップpトークンを選択するGPU最適化ソートフリーアルゴリズム、これらの予測によって導かれる動的キー値キャッシュプルーニングの3つのコア技術を採用している。
SpecAttnは、標準的な投機的復号パイプラインで既に行われている計算処理を活用することで、PG-19データセットの難易度をわずか15.29%増加させ、キー値キャッシュアクセスの75%以上を削減し、既存のスパースアテンション手法を著しく上回っている。
提案手法は, 性能劣化を伴わない近似検証を実現するため, 投機的実行を拡張できることを実証する。
関連論文リスト
- Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction [0.0]
本稿では,新しいアテンションアーキテクチャであるスパースクエリアテンション(SQA)について紹介する。
モデル事前トレーニング、微調整、エンコーダベースのタスクなど、計算バウンドシナリオで最大3倍のスループット向上を実現することができる。
SQAは、近くリリースされるReactive Transformerアーキテクチャの開発において、極めて重要視された。
論文 参考訳(メタデータ) (2025-10-02T09:01:38Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding [3.9826635165229223]
提案するTop-theta (Top-$theta$) Attention, a training-free method for sparsification transformer attention during inference。
私たちのキーとなる洞察は、頭当たりの静的な閾値は、アテンション行当たりの重要な要素の一定数の保持のために調整できるということです。
Top-Theta$は、Vキャッシュの使用を3~10倍削減し、推論中の注目要素を最大10倍削減するが、精度は1%以下である。
論文 参考訳(メタデータ) (2025-02-12T12:50:15Z) - Identify Critical KV Cache in LLM Inference from an Output Perturbation Perspective [19.447729423696096]
重要なKVキャッシュエントリを識別するための摂動制約付き選択アルゴリズムを提案する。
提案アルゴリズムは,Llamaモデルにおいて,92%以上のアテンションヘッドにおける低出力摂動を実現する。
論文 参考訳(メタデータ) (2025-02-06T06:31:47Z) - Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification [29.163757099307553]
大規模視覚言語モデル(LVLM)の効率は、プリフィルフェーズにおける注意機構の計算ボトルネックによって制約される。
本稿では,重要なトークンの動的比割り当て戦略を通じて,LVLM向けに設計された効率的な推論フレームワークZipVLを提案する。
論文 参考訳(メタデータ) (2024-10-11T07:24:21Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。