論文の概要: VFA: Relieving Vector Operations in Flash Attention with Global Maximum Pre-computation
- arxiv url: http://arxiv.org/abs/2604.12798v1
- Date: Tue, 14 Apr 2026 14:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.49755
- Title: VFA: Relieving Vector Operations in Flash Attention with Global Maximum Pre-computation
- Title(参考訳): VFA: グローバル最大計算によるFlashアテンションにおけるベクトル操作の救済
- Authors: Yupeng Sun, Yanzhao Li, Zhiqiang Zou, Bai Du, Zhiyuan Zhang, Hui Dong, Gaoyige Fan, Hui Wang,
- Abstract要約: FlashAttentionスタイルのオンラインソフトマックスは、線形メモリによる正確な注意計算を可能にする。
オンラインソフトマックスの非マルチコンポーネントはベクトルまたはSIMD制限となり、遅延が支配的になる。
本稿では,Vector Relieved Flash Attention (VFA)を提案する。
- 参考スコア(独自算出の注目度): 5.279829639786756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: FlashAttention-style online softmax enables exact attention computation with linear memory by streaming score tiles through on-chip memory and maintaining a running maximum and normalizer. However, as attention kernels approach peak tensor-core/cube-core throughput on modern accelerators, non-matmul components of online softmax -- especially per-tile rowmax and rowsum reductions and rescale chains -- can become vector or SIMD limited and dominate latency. This paper revisits FlashAttention and proposes Vector Relieved Flash Attention (VFA), a hardware-friendly method that reduces rowmax-driven updates of the running maximum while retaining the online-softmax structure. VFA initializes the running maximum via a cheap approximation from key-block representations, reorders key-block traversal to prioritize high-impact sink and local blocks, and freezes the maximum for remaining blocks to avoid repeated reductions and rescaling. We further integrate VFA with block-sparse skipping methods such as BLASST to form Vector Relieved Sparse Attention (VSA), which reduces both block count and per-block overhead. Notably, VFA and VSA completely avoid the conditional rescale operation in the update stage used in FA4.0. Extensive evaluations on benchmarks including MMLU and MATH500, together with attention statistics, verify our design: (i) sink and local reordering stabilizes the running maximum early; (ii) simple Q and K block summaries fail due to intra-block heterogeneity; (iii) m-initialization is required when maxima appear in middle blocks. Overall, VFA and VSA efficiently alleviate online-softmax reduction bottlenecks without performance loss. Compared to the C16V32 baseline, C8V32, C4V32 and C4V16 achieve nearly two times speedup on modern hardware while hitting the vector bottleneck. With upcoming architecture improvements, C4V16 will deliver six times speedup by enhancing exponent capacity.
- Abstract(参考訳): FlashAttentionスタイルのオンラインソフトマックスは、オンチップメモリを通じてスコアタイルをストリーミングすることで、リニアメモリによる正確な注意計算を可能にし、実行最大化と正規化を維持できる。
しかし、アテンションカーネルが現代のアクセラレーター上でピークテンソルコア/キューブコアのスループットに近づくと、オンラインソフトマックスの非マルチコンポーネント -- 特にタイルごとのローマックスとローサムの削減と再スケールチェーン -- はベクトルまたはSIMDに制限され、遅延が支配的になる可能性がある。
本稿では,FlashAttentionを再検討し,Vector Relieved Flash Attention (VFA)を提案する。
VFAは、キーブロック表現からの安価な近似によってランニング最大値を初期化し、キーブロックトラバースをリオーダして、ハイインパクトシンクとローカルブロックを優先し、残りブロックの最大値を凍結し、繰り返しの削減と再スケーリングを避ける。
さらに,ブロック数とブロック単位のオーバーヘッドを低減できるVSA(Vector Relieved Sparse Attention)を形成するために,BLASSTなどのブロックスパーススキップ手法とVFAを統合した。
特に、VFAとVSAは、FA4.0で使用される更新段階での条件付き再スケール操作を完全に回避している。
MMLUとMATH500を含むベンチマークの大規模な評価と、アテンション統計とともに、我々の設計を検証する。
(i)シンクとローカルリオーダは、実行時の最大値を早期に安定化させる。
(ii) ブロック内不均一性により、単純なQブロックとKブロックのサマリーが失敗する。
三) 中間ブロックに極大が現れるとき、m-初期化が要求される。
全体として、VFAとVSAは、パフォーマンスを損なうことなく、オンラインソフトマックスのボトルネックを効果的に軽減します。
C16V32のベースラインと比較すると、C8V32、C4V32、C4V16はベクターボトルネックに到達しながら、現代のハードウェアでほぼ2倍のスピードアップを実現している。
今後のアーキテクチャ改善により、C4V16は指数容量を6倍に向上する。
関連論文リスト
- FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling [20.849774181776414]
FlashAttention-4はcuDNN 9.13で最大1.3$times$、BF16でB200 GPUで2.7$times$Tritonで最大2.7$times$を達成している。
従来のC++テンプレートベースのアプローチと比較して20~30$times$高速なコンパイルタイムを実現しています。
論文 参考訳(メタデータ) (2026-03-05T18:24:49Z) - Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding [28.11907989174509]
本稿では,事前計算やプロキシスコアを使わずに動的にアテンション行列をプルークする,ドロップインスパースアテンション手法であるBLASSTを紹介する。
本手法では,オンラインソフトマックスからの既定しきい値と既存の情報を用いて,無視可能な注意点の同定を行う。
最適しきい値と文脈長の逆関係を明らかにする自動校正法を開発した。
論文 参考訳(メタデータ) (2025-12-12T23:30:43Z) - InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models [49.08289742711585]
我々は、Gated DeltaNetとSWA(Slide window attention)を相乗化する線形複雑VLMアーキテクチャであるInfiniteVLを提案する。
InfiniteVLは、一定のレイテンシとメモリフットプリントを維持しながら、3.6時間以上の推論高速化を実現する。
ストリーミングビデオ理解のシナリオでは、長期メモリキャッシュを保持しながら、24FPSのリアルタイムプリフィル速度を安定的に維持する。
論文 参考訳(メタデータ) (2025-12-09T17:18:32Z) - InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation [56.694702609077495]
ロングシーケンス処理は、現代の大規模言語モデルにとって重要な機能である。
InfLLM-V2は、ショートシーケンスからロングシーケンスまでのモデルをシームレスに適応する訓練可能なスパースアテンションフレームワークである。
実験では、InfLLM-V2は高密度の注意より4$times$速いが、98.1%と99.7%のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-09-29T12:08:33Z) - SystolicAttention: Fusing FlashAttention within a Single Systolic Array [2.8650887057567864]
Transformer Modelは、SDPA(Scaled dot-product attention)に大きく依存している。
現在のsystolic-arrayベースのアクセラレータは、FlashAttentionの実行において重大な課題に直面している。
本稿では、FlashAttentionアルゴリズムを単一のsystolic配列内で完全に動作させることができる拡張されたsystolic配列アーキテクチャであるFSAを提案する。
論文 参考訳(メタデータ) (2025-07-15T14:04:17Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。