論文の概要: ELSA: Exact Linear-Scan Attention for Fast and Memory-Light Vision Transformers
- arxiv url: http://arxiv.org/abs/2604.23798v1
- Date: Sun, 26 Apr 2026 16:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.554197
- Title: ELSA: Exact Linear-Scan Attention for Fast and Memory-Light Vision Transformers
- Title(参考訳): ELSA:高速・メモリ・ライト・ビジョン・トランスのためのリニア・スキャン・アテンション
- Authors: Chih-Chung Hsu, Xin-Di Ma, Wo-Ting Liao, Chia-Ming Lee,
- Abstract要約: 既存のアテンションアクセラレータは、しばしば正確なソフトマックスのセマンティクスを交換し、融合されたコアカーネルに依存する。
本稿では,実算術における厳密なソフトマックスのセマンティクスを近似可能な$mathcalO(ulog n)$ FP32の相対誤差境界で予約するオンラインソフトマックスアテンションをアルゴリズム的に再構成するbfELSAを提案する。
HMMA/GMMA Core命令に依存し、FP32パスを提供しないFlashAttention-2/3とは異なり、ELSAはA100とリソースで同一に動作する。
- 参考スコア(独自算出の注目度): 11.576817774473398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing attention accelerators often trade exact softmax semantics, depend on fused Tensor Core kernels, or incur sequential depth that limits FP32 throughput on long sequences. We present \textbf{ELSA}, an algorithmic reformulation of online softmax attention that (i)~preserves exact softmax semantics in real arithmetic with a \emph{provable} $\mathcal{O}(u\log n)$ FP32 relative error bound; (ii)~casts the online softmax update as a prefix scan over an associative monoid $(m,S,W)$, yielding $O(n)$ extra memory and $O(\log n)$ parallel depth; and (iii)~is Tensor-Core independent, implemented in Triton and CUDA C++, and deployable as a \emph{drop-in replacement} requiring no retraining or weight modification. Unlike FlashAttention-2/3, which rely on HMMA/GMMA Tensor Core instructions and provide no compatible FP32 path, ELSA operates identically on A100s and resource-constrained edge devices such as Jetson TX2 -- making it the only hardware-agnostic exact-attention kernel that reduces parallel depth to $O(\log n)$ at full precision. On A100 FP32 benchmarks (1K--16K tokens), ELSA delivers $1.3$--$3.5\times$ speedup over memory-efficient SDPA and $1.97$--$2.27\times$ on BERT; on Jetson TX2, ELSA achieves $1.5$--$1.6\times$ over Math (64--900 tokens), with $17.8$--$20.2\%$ throughput gains under LLaMA-13B offloading at $\ge$32K. In FP16, ELSA approaches hardware-fused baselines at long sequences while retaining full FP32 capability, offering a unified kernel for high-precision inference across platforms. Our code and implementation are available at https://github.com/ming053l/ELSA.
- Abstract(参考訳): 既存のアテンションアクセラレータは、しばしば正確なソフトマックスセマンティクスを交換し、融合したTensor Coreカーネル、または長いシーケンスでのFP32スループットを制限するインカレントディープに依存する。
オンライン・ソフトマックス・アテンションをアルゴリズムで再構成した「textbf{ELSA}」を提示する。
(i)~reserves exact softmax semantics in real arithmetic with a \emph{provable} $\mathcal{O}(u\log n)$ FP32 relative error bound;
asociative monoid $(m,S,W)$, yield $O(n)$ extra memory and $O(\log n)$ parallel depth;
(iii)–is Tensor-Core independent, implemented in Triton and CUDA C++, deployable as a \emph{drop-in replacement} requires no retraining and weight modified。
HMMA/GMMA Tensor Core命令と互換性のないFP32パスを提供するFlashAttention-2/3とは異なり、ELSAはA100sとJetson TX2のようなリソース制約のあるエッジデバイスで同じように動作する。
A100 FP32ベンチマーク(1K-16Kトークン)では、1.3$--3.5\times$メモリ効率のSDPAと1.97$--2.27\times$ on BERT; Jetson TX2では、ELSAは1.5$---$1.6\times$ over Math (64-900トークン)を、LLaMA-13Bのオフロードで17.8$--20.2\%のスループット向上を達成している。
FP16では、ELSAはハードウェア融合ベースラインに長いシーケンスでアプローチし、フルFP32能力を保ち、プラットフォーム間の高速推論のための統一カーネルを提供する。
私たちのコードと実装はhttps://github.com/ming053l/ELSA.comで公開されています。
関連論文リスト
- Copy-as-Decode: Grammar-Constrained Parallel Prefill for LLM Editing [2.6382975801439836]
LLMは、入力中にほとんどのトークンが冗長に見える場合でも、全出力を自動回帰的に再生することでテキストとコードを編集する。
Copy-as-Decodeは、2プリミティブ文法上の構造化復号化として生成を再キャストする復号化機構である。
論文 参考訳(メタデータ) (2026-04-20T12:29:53Z) - Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - 98$\times$ Faster LLM Routing Without a Dedicated GPU: Flash Attention, Prompt Compression, and Near-Streaming for the vLLM Semantic Router [9.457255218406333]
本稿では,vLLMセマンティックルータの3つの段階最適化について述べる。
ROCm上のONNX用のカスタムFlashアテンション演算子は、注目メモリを$O(n2)$から$O(n)$に還元する。
適応的チャンキングによるニアストリームボディ処理はシリアライズオーバーヘッドをなくす。
論文 参考訳(メタデータ) (2026-03-13T04:33:53Z) - Rank-Aware Spectral Bounds on Attention Logits for Stable Low-Precision Training [0.0]
変圧器における注意スコアは、低精度トレーニングにおけるオーバーフローリスクを最大で支配する2次形式である$S_ij = x_itop M x_j / sqrtd_h$である。
相互作用行列 $M = WQ WKtop$ が階数 $r ll d$ を持つとき、$max_i,j|S_ij|$ は $exp(-d22/) となる。
論文 参考訳(メタデータ) (2026-02-21T14:29:22Z) - EZ-SP: Fast and Lightweight Superpoint-Based 3D Segmentation [14.136068396056869]
本稿では,幾何学的および意味論的にコヒーレントなスーパーポイントを13$times$で生成する,学習可能な完全GPUパーティショニングアルゴリズムを提案する。
私たちのモジュールはコンパクト(60kパラメータ以下)で、20分以内の列車で、異なるサロゲート損失を発生させ、手作りの特徴を必要としない。
72$times$高速な推論と120$times$少ないパラメータで、EZ-SPは3つの領域にわたるポイントベースSOTAモデルの精度と一致する。
論文 参考訳(メタデータ) (2025-11-29T08:21:51Z) - Numerical Fragility in Transformers: A Layer-wise Theory for Explaining, Forecasting, and Mitigating Instability [0.0]
エラーがいつどこで発生するかを予測する一階のモジュールワイズ理論を提示する。
自己注意のために、3つの解釈可能な診断に分解する層間境界を導出する。
また、精度と幅を意識したLayerNormインジケータ$rho_rm LN$も導入する。
論文 参考訳(メタデータ) (2025-10-17T01:03:02Z) - Scaling Up Liquid-Resistance Liquid-Capacitance Networks for Efficient Sequence Modeling [50.994194925685434]
LrcSSMは$textitnon-linear$リカレントモデルで、現在の線形状態空間層と同じくらい高速に長いシーケンスを処理する。
ヤコビ行列を対角線に強制することにより、全列を並列に解くことができる。
LrcSSMは、Liquid-S4のような他の入力変化系が提供しないことを保証する形式的な勾配安定性を提供する。
論文 参考訳(メタデータ) (2025-05-27T20:02:59Z) - HashAttention: Semantic Sparsity for Faster Inference [95.31739930718116]
本稿では,HashAttention,framing pivotal token Identificationを推薦問題として紹介する。
トークン1個あたり32ビットの補助メモリしか必要とせず、最小品質の損失を最小限に抑えられるため、最大16タイムで使用されるトークンを削減できる。
A100 GPUでは、HashAttentionを組み込むことで、GPT-FASTで4.3times$、FlashDecodeで2.54times$、GPT-FASTで最大3.12times$高スループットを実現している。
論文 参考訳(メタデータ) (2024-12-19T02:34:15Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Optimal Query Complexities for Dynamic Trace Estimation [59.032228008383484]
我々は,行列がゆっくりと変化している動的環境において,正確なトレース推定に必要な行列ベクトルクエリ数を最小化する問題を考える。
我々は、$delta$失敗確率で$epsilon$エラーまで、すべての$m$トレースを同時に推定する新しいバイナリツリー要約手順を提供する。
我々の下界(1)は、静的な設定においてもフロベニウスノルム誤差を持つ行列ベクトル積モデルにおけるハッチンソン推定子の第一の厳密な境界を与え、(2)動的トレース推定のための最初の無条件下界を与える。
論文 参考訳(メタデータ) (2022-09-30T04:15:44Z) - Fixed-Support Wasserstein Barycenters: Computational Hardness and Fast
Algorithm [100.11971836788437]
固定支持ワッサーシュタインバリセンタ問題(FS-WBP)について検討する。
我々は,有望な反復的ブレグマン射影 (IBP) アルゴリズムであるtextscFastIBP の,証明可能な高速なテキスト決定論的変種を開発する。
論文 参考訳(メタデータ) (2020-02-12T03:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。