論文の概要: FastAttention: Extend FlashAttention2 to NPUs and Low-resource GPUs
- arxiv url: http://arxiv.org/abs/2410.16663v1
- Date: Tue, 22 Oct 2024 03:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:10.026844
- Title: FastAttention: Extend FlashAttention2 to NPUs and Low-resource GPUs
- Title(参考訳): FastAttention: FlashAttention2をNPUや低リソースGPUに拡張
- Authors: Haoran Lin, Xianzhi Yu, Kang Zhao, Lu Hou, Zongyuan Zhan, Stanislav Kamenev, Han Bao, Ting Hu, Mingkai Wang, Qixin Chang, Siyue Sui, Weihao Sun, Jiaxin Hu, Jun Yao, Zekun Yin, Cheng Qian, Ying Zhang, Yinfei Pan, Yu Yang, Weiguo Liu,
- Abstract要約: FlashAttentionシリーズは、大規模言語モデル(LLM)の推論に広く応用されている。
しかし、FlashAttentionシリーズはAmpereやHopperのような高レベルのGPUアーキテクチャしかサポートしていない。
本研究では,NPUと低リソースGPUに対するFlashAttentionの適応の先駆けとなるFastAttentionを提案する。
- 参考スコア(独自算出の注目度): 25.016652939042824
- License:
- Abstract: FlashAttention series has been widely applied in the inference of large language models (LLMs). However, FlashAttention series only supports the high-level GPU architectures, e.g., Ampere and Hopper. At present, FlashAttention series is not easily transferrable to NPUs and low-resource GPUs. Moreover, FlashAttention series is inefficient for multi- NPUs or GPUs inference scenarios. In this work, we propose FastAttention which pioneers the adaptation of FlashAttention series for NPUs and low-resource GPUs to boost LLM inference efficiency. Specifically, we take Ascend NPUs and Volta-based GPUs as representatives for designing our FastAttention. We migrate FlashAttention series to Ascend NPUs by proposing a novel two-level tiling strategy for runtime speedup, tiling-mask strategy for memory saving and the tiling-AllReduce strategy for reducing communication overhead, respectively. Besides, we adapt FlashAttention for Volta-based GPUs by redesigning the operands layout in shared memory and introducing a simple yet effective CPU-GPU cooperative strategy for efficient memory utilization. On Ascend NPUs, our FastAttention can achieve a 10.7$\times$ speedup compared to the standard attention implementation. Llama-7B within FastAttention reaches up to 5.16$\times$ higher throughput than within the standard attention. On Volta architecture GPUs, FastAttention yields 1.43$\times$ speedup compared to its equivalents in \texttt{xformers}. Pangu-38B within FastAttention brings 1.46$\times$ end-to-end speedup using FasterTransformer. Coupled with the propose CPU-GPU cooperative strategy, FastAttention supports a maximal input length of 256K on 8 V100 GPUs. All the codes will be made available soon.
- Abstract(参考訳): FlashAttentionシリーズは、大規模言語モデル(LLM)の推論に広く応用されている。
しかし、FlashAttentionシリーズは、AmpereやHopperといった高レベルのGPUアーキテクチャのみをサポートする。
現在、FlashAttentionシリーズはNPUや低リソースGPUに簡単に転送できない。
さらに、FlashAttentionシリーズは、マルチNPUやGPU推論シナリオでは非効率である。
本研究では,FlashAttentionシリーズをNPUや低リソースGPUに適応させ,LLM推論効率を向上させるFastAttentionを提案する。
具体的には、Ascend NPUとVoltaベースのGPUを、FastAttentionを設計するための代表としています。
我々はFlashAttentionシリーズをAscend NPUに移行し、実行時の高速化のための新しい2段階のタイリング戦略、メモリ節約のためのタイリングマスク戦略、通信オーバーヘッドを減らすためのタイリングオールレデュース戦略を提案する。
さらに、VoltaベースのGPUにFlashAttentionを適用し、共有メモリのオペランドレイアウトを再設計し、効率的なメモリ利用のためのシンプルで効果的なCPU-GPU協調戦略を導入する。
Ascend NPUでは、FastAttentionは標準のアテンション実装と比較して10.7$\times$のスピードアップを達成できます。
FastAttention内のLlama-7Bは、標準の注目値よりも5.16$\times$高スループットに達する。
Volta アーキテクチャ GPU では、FastAttention は \texttt{xformers} の同等値と比較して 1.43$\times$ スピードアップする。
FastAttention 内の Pangu-38B は FasterTransformer を使用した 1.46$\times$ end-to-end のスピードアップを提供する。
提案されたCPU-GPU協調戦略と組み合わせて、FastAttentionは8V100 GPU上で256Kの最大入力長をサポートする。
コードはすべてすぐに利用可能になります。
関連論文リスト
- FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision [14.426543629408984]
注意は、大きな言語モデルと長いコンテキストアプリケーションのボトルネックです。
我々はGPUに注意を向ける3つの主要な技術を開発した。
提案手法であるFlashAttention-3は,FP16が最大740 TFLOPs/s(75%利用)に達し,FP8が1.2 PFLOPs/sに到達して,H100 GPU上で1.5-2.0$timesの高速化を実現していることを示す。
論文 参考訳(メタデータ) (2024-07-11T15:44:48Z) - Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。
提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文 参考訳(メタデータ) (2024-06-24T01:56:12Z) - NeRF-XL: Scaling NeRFs with Multiple GPUs [72.75214892939411]
我々は、複数のGPUにまたがるニューラルラジアンス場(NeRF)を分散する原理的手法であるNeRF-XLを提案する。
パラメータ数を大きくして再構成品質を向上し,GPUの高速化を実現した。
我々は,25km2の都市部をカバーする258K画像を含む,これまでで最大規模のオープンソースデータセットMatrixCityを含む,さまざまなデータセットに対するNeRF-XLの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-24T21:43:15Z) - FULL-W2V: Fully Exploiting Data Reuse for W2V on GPU-Accelerated Systems [5.572152653851948]
FULL-W2Vは、W2Vアルゴリズムにおけるデータ再利用の機会を利用して、低メモリレベルへのアクセスを減らし、時間的局所性を改善する。
我々のプロトタイプ実装では、Nvidia Pascal P100からVolta V100への移植時に2.97倍の高速化を実現し、同じ埋め込み品質のV100カードでは、最先端の5.72倍の性能を発揮する。
論文 参考訳(メタデータ) (2023-12-12T21:22:07Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - FlashAttention-2: Faster Attention with Better Parallelism and Work
Partitioning [11.508362885430133]
非対称なGPUメモリ階層を利用して、メモリの大幅な節約と実行時の高速化を実現しています。
FlashAttentionはまだGEMM(Optimized matrix-multiply)操作ほど高速ではなく、理論上の最大FLOP/sの25-40%にしか達していない。
これらの問題に対処するために、より優れた作業パーティショニングを備えたFlashAttention-2を提案する。
論文 参考訳(メタデータ) (2023-07-17T17:50:36Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - TFApprox: Towards a Fast Emulation of DNN Approximate Hardware
Accelerators on GPU [0.4817429789586127]
近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。
DNNアクセラレータのソフトウェアエミュレーションは通常、CPUまたはGPU上で実行される。
このエミュレーションは通常、ソフトウェアDNN実装のエミュレーションよりも2~3桁遅い。
論文 参考訳(メタデータ) (2020-02-21T08:22:56Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。