論文の概要: Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction
- arxiv url: http://arxiv.org/abs/2505.11254v1
- Date: Fri, 16 May 2025 13:48:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.175791
- Title: Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction
- Title(参考訳): Delta Attention: Delta Correctionによる高速かつ高精度なスパースアテンション推論
- Authors: Jeffrey Willette, Heejun Lee, Sung Ju Hwang,
- Abstract要約: 変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
- 参考スコア(独自算出の注目度): 52.14200610448542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attention mechanism of a transformer has a quadratic complexity, leading to high inference costs and latency for long sequences. However, attention matrices are mostly sparse, which implies that many entries may be omitted from computation for efficient inference. Sparse attention inference methods aim to reduce this computational burden; however, they also come with a troublesome performance degradation. We discover that one reason for this degradation is that the sparse calculation induces a distributional shift in the attention outputs. The distributional shift causes decoding-time queries to fail to align well with the appropriate keys from the prefill stage, leading to a drop in performance. We propose a simple, novel, and effective procedure for correcting this distributional shift, bringing the distribution of sparse attention outputs closer to that of quadratic attention. Our method can be applied on top of any sparse attention method, and results in an average 36%pt performance increase, recovering 88% of quadratic attention accuracy on the 131K RULER benchmark when applied on top of sliding window attention with sink tokens while only adding a small overhead. Our method can maintain approximately 98.5% sparsity over full quadratic attention, making our model 32 times faster than Flash Attention 2 when processing 1M token prefills.
- Abstract(参考訳): 変圧器のアテンション機構は2次複雑さを持ち、長周期の推論コストと遅延を高くする。
しかし、注意行列はほとんどスパースであり、効率的な推論のために計算から多くのエントリを省略することができる。
少ない注意推定法は, この計算負担を軽減することを目的としているが, 性能劣化も問題となる。
この劣化の1つの理由は、スパース計算が注意出力の分布シフトを誘導するからである。
分散シフトは、デコード時のクエリがプリフィルステージの適切なキーとうまく一致しないことを引き起こし、パフォーマンスが低下する。
本稿では, この分布変化を2次的注意の分布に近づけ, 簡易で, 新規かつ効果的に補正する手法を提案する。
提案手法は任意のスパースアテンション法に適用可能であり, 平均36%の性能向上を達成でき, 少ないオーバーヘッドを伴いながらスライディングウィンドウアテンション上に適用した場合, 131K RULERベンチマークの2次アテンション精度の88%を回復させることができた。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
関連論文リスト
- ZipR1: Reinforcing Token Sparsity in MLLMs [25.92720050123066]
本稿では,トークン削減率を効率報酬として扱い,解答精度を性能報酬として扱う,簡単なRLベースのポストトレーニング手法であるtextbfZipR1を提案する。
実験の結果、ZipR1は13の画像とビデオのベンチマークにおいて、Qwen2/2.5-VLのトークン比を80%から25%に削減できることがわかった。
論文 参考訳(メタデータ) (2025-04-23T01:45:55Z) - Online Pseudo-average Shifting Attention(PASA) for Robust Low-precision LLM Inference: Algorithms and Numerical Analysis [15.71443217369106]
我々は、Flash Attentionに基づくPASAと呼ばれる低精度で数学的に等価なアルゴリズムを開発した。
PASAは、オンライン擬似平均シフトとグローバルリカバリの2つの新しいテクニックを紹介している。
注意入力データの大きなバイアスと振幅が,数値オーバーフローに寄与する重要な要因であることがわかった。
論文 参考訳(メタデータ) (2025-02-26T01:00:46Z) - Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - Top-Theta Attention: Sparsifying Transformers by Compensated Thresholding [1.6112718683989882]
我々は、注意要素を慎重に調整された閾値と比較することによって、重要でない注意要素を選択的に抽出するTop-theta Attention(Top-theta$)を導入する。
モデル精度を保ちながら自己注意行列乗算の効率を大幅に向上する。
トップkとは異なり、Top-$theta$は全ベクター依存を排除し、タイリングとスケールアウトに適し、コストのかかるトップk検索を避ける。
論文 参考訳(メタデータ) (2025-02-12T12:50:15Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Only 5\% Attention Is All You Need: Efficient Long-range Document-level
Neural Machine Translation [70.87670058323239]
文書レベルの文脈情報を導入することにより,談話現象を扱う上で,文書レベルのニューラルネットワーク翻訳(DocNMT)が重要であることが証明されている。
最も重要な方向の1つは、ドキュメント全体を標準のTransformerモデルに直接入力することである。
本研究は,少量のトークンを選択する軽量注意に基づく追加の選択層を導入することにより,翻訳性能を20%向上させながら維持する。
論文 参考訳(メタデータ) (2023-09-25T14:33:47Z) - SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning [10.981433334942476]
本稿では,トークンの空白度,頭部の空白度,量子化の機会を利用して注意計算やメモリアクセスを減らす,効率的なアルゴリズムアーキテクチャの共同設計であるSpAttenを提案する。
30のベンチマークでの実験では、SpAttenはDRAMアクセスを10.0xの精度で削減し、1.6x, 3.0x, 162x, 347xのスピードアップと1,4x, 3.2x, 1193x, 4059xの省エネを実現している。
論文 参考訳(メタデータ) (2020-12-17T18:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。