論文の概要: Power Law Guided Dynamic Sifting for Efficient Attention
- arxiv url: http://arxiv.org/abs/2506.05300v1
- Date: Thu, 05 Jun 2025 17:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.871358
- Title: Power Law Guided Dynamic Sifting for Efficient Attention
- Title(参考訳): 効率的な注意のための力法指導ダイナミックシフティング
- Authors: Nirav Koley, Prajwal Singhania, Abhinav Bhatele,
- Abstract要約: そこで我々は,最上位のk$ステップをしきい値に基づく計算効率の良い要素ワイドフィルタリング操作に置き換える,新しい近似アテンション手法SiftAttentionを提案する。
評価の結果,SiftAttentionは,ベクタのロード時のメモリ使用量を削減するとともに,既存の近似アテンション手法よりもモデル品質を向上することが示された。
- 参考スコア(独自算出の注目度): 0.8198759882422455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient inference on GPUs using large language models remains challenging due to memory bandwidth limitations, particularly during data transfers between High Bandwidth Memory (HBM) and SRAM in attention computations. Approximate attention methods address this issue by reducing computational and memory overhead but often rely on expensive top-$k$ operations, which perform poorly on GPUs. We propose SiftAttention, a novel approximate attention method that replaces the top-$k$ step with a computationally efficient element-wise filtering operation based on a threshold value. Our intuition for doing this is based on our empirical observation that the $\tau$-th quantile of attention scores follows a predictable power-law over sequential generation steps. Exploiting this insight, our approach dynamically estimates a threshold value per prompt at each generation step. Only attention scores above this threshold and their corresponding value vectors are loaded/used to compute the attention output, reducing data movement between HBM and SRAM. Our evaluation demonstrates that SiftAttention preserves model quality better than existing approximate attention methods while reducing memory bandwidth usage when loading value vectors.
- Abstract(参考訳): 大規模言語モデルを用いたGPUの効率的な推論は、特に注意計算におけるハイ帯域メモリ(HBM)とSRAM間のデータ転送において、メモリ帯域幅の制限のために依然として困難である。
近似アテンションメソッドは計算とメモリのオーバーヘッドを減らすことでこの問題に対処するが、しばしばGPUでは性能が悪く、高額なkドル演算に依存している。
そこで我々は,最上位のk$ステップをしきい値に基づく計算効率の良い要素ワイドフィルタリング操作に置き換える,新しい近似アテンション手法SiftAttentionを提案する。
私たちの直感は、$$\tau$-th Quantile of attention scoresが、逐次生成ステップよりも予測可能なパワーローに従うという経験的な観察に基づいています。
提案手法は,各生成ステップにおけるプロンプト毎のしきい値を動的に推定する。
この閾値以上のアテンションスコアと対応する値ベクトルのみをロード/使用してアテンション出力を演算し、HBMとSRAM間のデータ移動を低減する。
評価の結果、SiftAttentionは既存の近似アテンション法よりもモデル品質を保ちつつ、値ベクトルのロード時のメモリ帯域幅の削減を図っている。
関連論文リスト
- FlashAttention on a Napkin: A Diagrammatic Approach to Deep Learning IO-Awareness [0.0]
FlashAttentionのようなメソッドは、不要なデータ転送を避けることによって、ネイティブのPyTorchよりもx6パフォーマンスの向上を実現している。
本稿では、ディープラーニングモデルのためのニューラルネットワークダイアグラムを拡張し、GPU階層間のリソース使用量とタスクの分散を検討する。
本研究では,中間レベルの擬似コードをダイアグラムで表現する手法を開発し,ハードウェア認識アルゴリズムをステップバイステップで導出できるようにする。
論文 参考訳(メタデータ) (2024-12-04T13:52:04Z) - Continual Low-Rank Scaled Dot-product Attention [67.11704350478475]
我々は,連続的推論に適したNystr"om近似に基づくスケールド・プロダクツ・アテンションの新しい定式化を導入する。
オンライン音声分類およびオンライン行動検出タスクの実験において、提案した連続的スケールド・プロダクト・アテンションは、最大3桁の操作数を削減できる。
論文 参考訳(メタデータ) (2024-12-04T11:05:01Z) - MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices [24.1144641404561]
本稿では,メモリ制約付きエッジアクセラレータ上での正確なアテンション推定高速化手法を提案する。
エッジコンピューティングのシナリオではFLAT (State-of-the-art attention fusion Method) と比較して,2.75倍のスピードアップと54%のエネルギー消費削減が見られた。
論文 参考訳(メタデータ) (2024-11-20T19:44:26Z) - Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference [1.0919012968294923]
本稿では,頭部の疎度を用いてトランスフォーマーを高速化し,疎度をブロックし,注意の計算を減らし,メモリアクセスを減らし,新しいアルゴリズムアーキテクチャの共設計手法を提案する。
注目スコアと注目ヘッドの巨大な冗長性を観測し、実行時に注目行列内の重要でないブロックをプルーする整数ベースの行平衡ブロックプルーニングを提案する。
また、実行時に重要でないヘッドを検出およびプルーする整数ベースのヘッドプルーニングを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:15:16Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:41:58Z) - Sparse Attention Acceleration with Synergistic In-Memory Pruning and
On-Chip Recomputation [6.303594714446706]
自己認識機構は、入力シーケンス全体にわたってペアワイズ相関を計測する。
良好な性能にもかかわらず、ペアワイズ相関を計算するのは非常にコストがかかる。
この研究は、注意点を近似的に計算するSPRINTと呼ばれるアクセラレーターを設計することで、これらの制約に対処する。
論文 参考訳(メタデータ) (2022-09-01T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。