論文の概要: FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision
- arxiv url: http://arxiv.org/abs/2407.08608v1
- Date: Thu, 11 Jul 2024 15:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:50:17.849018
- Title: FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision
- Title(参考訳): FlashAttention-3: 非同期と低精度で高速で正確な注意
- Authors: Jay Shah, Ganesh Bikshandi, Ying Zhang, Vijay Thakkar, Pradeep Ramani, Tri Dao,
- Abstract要約: 注意は、大きな言語モデルと長いコンテキストアプリケーションのボトルネックです。
我々はGPUに注意を向ける3つの主要な技術を開発した。
提案手法であるFlashAttention-3は,FP16が最大740 TFLOPs/s(75%利用)に達し,FP8が1.2 PFLOPs/sに到達して,H100 GPU上で1.5-2.0$timesの高速化を実現していることを示す。
- 参考スコア(独自算出の注目度): 14.426543629408984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention, as a core layer of the ubiquitous Transformer architecture, is the bottleneck for large language models and long-context applications. FlashAttention elaborated an approach to speed up attention on GPUs through minimizing memory reads/writes. However, it has yet to take advantage of new capabilities present in recent hardware, with FlashAttention-2 achieving only 35% utilization on the H100 GPU. We develop three main techniques to speed up attention on Hopper GPUs: exploiting asynchrony of the Tensor Cores and TMA to (1) overlap overall computation and data movement via warp-specialization and (2) interleave block-wise matmul and softmax operations, and (3) block quantization and incoherent processing that leverages hardware support for FP8 low-precision. We demonstrate that our method, FlashAttention-3, achieves speedup on H100 GPUs by 1.5-2.0$\times$ with FP16 reaching up to 740 TFLOPs/s (75% utilization), and with FP8 reaching close to 1.2 PFLOPs/s. We validate that FP8 FlashAttention-3 achieves 2.6$\times$ lower numerical error than a baseline FP8 attention.
- Abstract(参考訳): ユビキタストランスフォーマーアーキテクチャのコアレイヤとしての注意は、大規模言語モデルと長期コンテキストアプリケーションのボトルネックとなる。
FlashAttentionは、メモリ読み込み/書き込みを最小化することでGPUの注意を加速するアプローチを詳しく説明した。
しかし、FlashAttention-2はH100 GPUでわずか35%しか利用できないため、最近のハードウェアで見られる新機能をまだ活用していない。
1)ワープ特殊化による全体的な計算とデータ移動の重なり、(2)ブロックワイドの行列とソフトマックス演算のインターリーブ、(3)FP8のハードウェアサポートを利用するブロック量子化と不整合処理である。
提案手法であるFlashAttention-3は,FP16が740 TFLOPs/s (75%) に達し,FP8が1.2 PFLOPs/sに近づき,H100 GPUの1.5-2.0$\times$が高速化されることを示す。
我々はFP8 FlashAttention-3がベースラインFP8よりも2.6$\times$低い数値誤差を達成したことを検証する。
関連論文リスト
- FastAttention: Extend FlashAttention2 to NPUs and Low-resource GPUs [25.016652939042824]
FlashAttentionシリーズは、大規模言語モデル(LLM)の推論に広く応用されている。
しかし、FlashAttentionシリーズはAmpereやHopperのような高レベルのGPUアーキテクチャしかサポートしていない。
本研究では,NPUと低リソースGPUに対するFlashAttentionの適応の先駆けとなるFastAttentionを提案する。
論文 参考訳(メタデータ) (2024-10-22T03:29:33Z) - INT-FlashAttention: Enabling Flash Attention for INT8 Quantization [16.920037999454625]
INT-FlashAttentionは、FlashAttentionのフォワードワークフローと互換性のある最初の量子化アーキテクチャである。
完全なINT8アクティベーションとGEMM(GeneralMatrix-multiplication)カーネルを備えたINT-FlashAttentionプロトタイプを実装した。
実験の結果、INT-FlashAttentionは標準のFlashAttentionに比べて72%高速な推論速度と82%の量子化誤差を達成した。
論文 参考訳(メタデータ) (2024-09-25T15:02:25Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - FlashAttention-2: Faster Attention with Better Parallelism and Work
Partitioning [11.508362885430133]
非対称なGPUメモリ階層を利用して、メモリの大幅な節約と実行時の高速化を実現しています。
FlashAttentionはまだGEMM(Optimized matrix-multiply)操作ほど高速ではなく、理論上の最大FLOP/sの25-40%にしか達していない。
これらの問題に対処するために、より優れた作業パーティショニングを備えたFlashAttention-2を提案する。
論文 参考訳(メタデータ) (2023-07-17T17:50:36Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - Revisiting Multi-Scale Feature Fusion for Semantic Segmentation [90.32746095413447]
本稿では,高精度なセマンティックセグメンテーションには高い内部分解能もアトラス畳み込みも不要であることを示す。
我々は,内部分解能が高く,高コストなアトラス畳み込みをもたない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。
我々の単純な手法は、複数のデータセットにまたがる先行技術よりも高速で精度を向上できる。
論文 参考訳(メタデータ) (2022-03-23T19:14:11Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。