Fugu-MT 論文翻訳(概要): SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

論文の概要: SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

arxiv url: http://arxiv.org/abs/2502.18137v1
Date: Tue, 25 Feb 2025 12:02:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:46.047175
Title: SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference
Title（参考訳）: SpargeAttn: モデル推論を高速化する正確なスパースアテンション
Authors: Jintao Zhang, Chendong Xiang, Haofeng Huang, Jia Wei, Haocheng Xi, Jun Zhu, Jianfei Chen,
Abstract要約: SpargeAttnは任意のモデルに対する普遍的スパースで量子化された注意である。本手法は,エンドツーエンドのメトリクスを犠牲にすることなく,言語,画像,ビデオ生成などの多様なモデルを大幅に高速化する。
参考スコア（独自算出の注目度）: 21.47425403468577
License: http://creativecommons.org/licenses/by/4.0/
Abstract: An efficient attention implementation is essential for large models due to its quadratic time complexity. Fortunately, attention commonly exhibits sparsity, i.e., many values in the attention map are near zero, allowing for the omission of corresponding computations. Many studies have utilized the sparse pattern to accelerate attention. However, most existing works focus on optimizing attention within specific models by exploiting certain sparse patterns of the attention map. A universal sparse attention that guarantees both the speedup and end-to-end performance of diverse models remains elusive. In this paper, we propose SpargeAttn, a universal sparse and quantized attention for any model. Our method uses a two-stage online filter: in the first stage, we rapidly and accurately predict the attention map, enabling the skip of some matrix multiplications in attention. In the second stage, we design an online softmax-aware filter that incurs no extra overhead and further skips some matrix multiplications. Experiments show that our method significantly accelerates diverse models, including language, image, and video generation, without sacrificing end-to-end metrics. The codes are available at https://github.com/thu-ml/SpargeAttn.
Abstract（参考訳）: 2次時間複雑性のため、大規模モデルには効率的な注意実装が不可欠である。幸いなことに、注意マップの多くの値はゼロに近いため、対応する計算を省略することができる。多くの研究がこのスパースパターンを利用して注意を加速した。しかし、既存のほとんどの研究は、注意マップのスパースパターンを利用して、特定のモデル内の注意を最適化することに重点を置いている。多様なモデルのスピードアップとエンド・ツー・エンドの両方のパフォーマンスを保証する普遍的なスパースな注意は、いまだ解明されていない。本稿では,任意のモデルに対する普遍的スパースかつ量子化された注目度であるSpargeAttnを提案する。提案手法では,2段階のオンラインフィルタを用いて,注意マップを高速かつ正確に予測し,注意対象の行列乗算のスキップを可能にする。第2段階では、余分なオーバーヘッドを伴わず、さらに行列乗算をスキップするオンラインソフトマックス対応フィルタを設計する。実験の結果,エンド・ツー・エンドの指標を犠牲にすることなく,言語,画像,ビデオ生成などの多様なモデルを大幅に高速化することがわかった。コードはhttps://github.com/thu-ml/SpargeAttn.comで公開されている。

関連論文リスト

PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models [14.14413223631804]
視覚生成において、注意機構の二次的な複雑さは、高いメモリと計算コストをもたらす。課題を軽減するための注意パターンを*再編成する。視覚特徴抽出の局所的な集約性に着想を得て,新しい**Pattern-Aware token Re Ordering (PARO)*テクニックを設計する。
論文参考訳（メタデータ） (2025-06-19T06:25:02Z)
FlashBias: Fast Computation of Attention with Bias [77.39043478894504]
本稿では,低ランク圧縮センシング理論に基づくFlashBiasを提案する。 FlashBiasは、最新のGPUで非常に最適化された行列乗算演算をフル活用でき、AlphaFoldの1.5$times$スピードアップ、そして2$times$スピードアップを達成した。
論文参考訳（メタデータ） (2025-05-17T15:12:50Z)
Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。 1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文参考訳（メタデータ） (2025-05-16T13:48:33Z)
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。 SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文参考訳（メタデータ） (2025-05-10T17:15:49Z)
AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-06T13:41:46Z)
Longer Attention Span: Increasing Transformer Context Length with Sparse Graph Processing Techniques [0.0]
本稿では,トークンをグラフのノードとして認識し,注目マスクがグラフのエッジを決定する,注目のグラフコンピューティングビューを提案する。この観点から,注意機構を実装するグラフ処理アルゴリズムを開発した。我々のアルゴリズムは1つのNVIDIA A100 GPUで1億6000万の非常に長いシーケンス長を達成できます。
論文参考訳（メタデータ） (2025-01-31T22:05:00Z)
S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文参考訳（メタデータ） (2024-07-25T00:27:07Z)
Loki: Low-rank Keys for Efficient Sparse Attention [44.74682508879725]
大規模言語モデル(LLM)の推論は、計算コストとメモリコストの面で高価である。本研究では,注目ブロックで計算された鍵ベクトルの次元性に着目し,自己注意を近似する手法を提案する。低次元空間で計算されたアテンションスコアに基づいてKVキャッシュ内のトークンをランク付けし、選択する新しいスパースアテンション手法であるLokiを提案する。
論文参考訳（メタデータ） (2024-06-04T17:58:03Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models [20.78813311569383]
本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attentionを紹介する。具体的には、従来のアテンション機構をブロック内に適用し、インターブロックに対して線形アテンションカーネルのトリックを適用する。異なるモデルサイズとシーケンス長について様々な実験を行った。
論文参考訳（メタデータ） (2024-01-09T16:27:28Z)
Faster Causal Attention Over Large Sequences Through Sparse Flash Attention [45.18552512844457]
FlashAttentionを拡張して、大量の注目空間パターンに対応します。変換言語モデルのトレーニング速度を、それぞれ$2.0times$と$3.3times$で、それぞれ$8k$と$16k$のシーケンスで増加します。
論文参考訳（メタデータ） (2023-06-01T21:33:59Z)
SwiftFormer: Efficient Additive Attention for Transformer-based Real-time Mobile Vision Applications [98.90623605283564]
本稿では,2次行列乗算演算を線形要素乗算に効果的に置き換える,新しい効率的な付加的注意機構を提案する。我々は"SwiftFormer"と呼ばれる一連のモデルを構築し、精度とモバイル推論速度の両面で最先端のパフォーマンスを達成する。私たちの小さなバージョンでは、iPhone 14で8.5%のImageNet-1Kの精度が達成され、そのレイテンシは0.8msで、MobileViT-v2より2倍速くなります。
論文参考訳（メタデータ） (2023-03-27T17:59:58Z)
AttentionNAS: Spatiotemporal Attention Cell Search for Video Classification [86.64702967379709]
本稿では,時間的注意のための新しい検索空間を提案する。これにより,検索アルゴリズムはセルの様々な設計選択を柔軟に探索することができる。検出されたアテンションセルは既存のバックボーンネットワーク(例えばI3DやS3D)にシームレスに挿入することができ、Kinetics-600とMiTのデータセットでビデオの精度を2%以上改善することができる。
論文参考訳（メタデータ） (2020-07-23T14:30:05Z)
SAC: Accelerating and Structuring Self-Attention via Sparse Adaptive Connection [51.376723069962]
本稿では,スパース適応接続(Sparse Adaptive Connection)を提案する。 SACでは、入力シーケンスをグラフとみなし、リンクノード間のアテンション操作を行う。我々は,SACが最先端モデルと競合する一方で,メモリコストを大幅に削減することを示した。
論文参考訳（メタデータ） (2020-03-22T07:58:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。