論文の概要: Attention in SRAM on Tenstorrent Grayskull
- arxiv url: http://arxiv.org/abs/2407.13885v1
- Date: Thu, 18 Jul 2024 20:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 19:32:58.912953
- Title: Attention in SRAM on Tenstorrent Grayskull
- Title(参考訳): テンストトレントグレースコールにおけるSRAMの注意
- Authors: Moritz Thüning,
- Abstract要約: Tenstorrent Grayskullアーキテクチャは、コアの大きな分散グリッドを提供する。
Grayskull用の融合カーネルは、行列乗算、アテンションスケーリング、ソフトマックス演算を組み合わせたものである。
CPU実装と比較して、専用のSoftmaxカーネルの高速化は、最大10倍の価格である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When implementations of the Transformer's self-attention layer utilize SRAM instead of DRAM, they can achieve significant speedups. The Tenstorrent Grayskull architecture provides a large SRAM, distributed across a grid of cores. This work presents a fused kernel for Grayskull, that exclusively utilizes its large SRAM by combining matrix multiplication, attention score scaling and Softmax operations. Additionally, a dedicated Softmax kernel utilizing the SRAM and a CPU implementation serving as a baseline are presented. The Softmax operation consumes most of the runtime in the computation of attention weights from queries and keys on Grayskull. The speedup of the dedicated Softmax kernel compared to the CPU implementation is up to $10 \times$, and the Softmax implementation inside the fused kernel is approximately $1.8 \times$ faster than the dedicated Softmax kernel. The time and memory complexity of all implementations is quadratic in sequence length. Currently, the Grayskull e150 is approximately $30 \times$ cheaper for the general public than an Nvidia H100 PCIe (a state-of-the-art GPU) and offers approximately $1.5 \times$ more SRAM.
- Abstract(参考訳): トランスフォーマーの自己保持層の実装では、DRAMの代わりにSRAMを使用すると、大幅な高速化が達成される。
Tenstorrent Grayskullアーキテクチャは、コアグリッドに分散された大きなSRAMを提供する。
本研究は,行列乗算,アテンションスコアスケーリング,ソフトマックス演算を組み合わせた大規模SRAMを専ら利用したGrayskull用の融合カーネルを提案する。
また、SRAMを利用した専用Softmaxカーネルと、ベースラインとして機能するCPU実装を提示する。
Softmax操作は、Grayskullのクエリとキーからの注意重みの計算において、ランタイムの大部分を消費する。
CPU実装と比較して、専用のSoftmaxカーネルの高速化は最大10 \times$であり、融合カーネル内のSoftmax実装は、専用のSoftmaxカーネルよりも約1.8 \times$高速である。
すべての実装の時間とメモリの複雑さは、シーケンス長で2次である。
現在、Grayskull e150はNvidia H100 PCIe(最先端のGPU)より30ドルほど安く、SRAMは1.5ドルほどある。
関連論文リスト
- vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - PopSparse: Accelerated block sparse matrix multiplication on IPU [0.5661403709207713]
本稿では,Graphcore IPU上での高速スパース操作を実現するライブラリであるPopSparseを紹介する。
静的、コンパイル時にスパーシティパターンが固定される、動的、モデルの実行毎に変更される、という2つの異なるタイプのスパーシリティをターゲットにしています。
その結果,PopSparse の実装は IPU 上での高密度行列乗算よりも幅広い範囲で高速であることが示唆された。
論文 参考訳(メタデータ) (2023-03-29T20:00:19Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - Efficient Quantized Sparse Matrix Operations on Tensor Cores [21.963041375857117]
本稿では,コア上の低精度整数のための高性能スパース行列ライブラリMagicubeを提案する。
我々はMagicubeが、スパースカーネルのベンダー最適化ライブラリ上で平均1.44倍(最大2.37倍)のスピードアップを実現し、エンドツーエンドのTransformer推論に匹敵する精度で最先端の1.43倍のスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2022-09-14T23:52:13Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Giga-scale Kernel Matrix Vector Multiplication on GPU [9.106412307976067]
Kernel matrix vector multiplication (KMVM) は、カーネル文学から信号処理まで、機械学習と科学計算におけるユビキタスな演算である。
KMVMのスケーリング問題に対処するために,Faster-Fast and Free Memory Method(textF3$M)という新しい近似手法を提案する。
我々は、$textF3$Mで10億ポイントのKMVMを1分以内のハイエンドGPUで計算できることを示し、既存のCPU手法と比較して大幅に高速化された。
論文 参考訳(メタデータ) (2022-02-02T15:28:15Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Sparse GPU Kernels for Deep Learning [24.94153856081836]
ディープラーニングアプリケーションは、既存のスパースカーネルが密度の高いカーネルを上回るほど、比較的適度なスパーシティを持つ。
ニューラルネットワークに適用可能な2つのスパース行列演算のための高性能GPUカーネルを開発した。
カーネルを用いて、1.2-2.1倍のスピードアップと最大12.8倍のメモリ節約が可能なスパーストランスフォーマーとMobileNetモデルを、精度を犠牲にすることなく示す。
論文 参考訳(メタデータ) (2020-06-18T23:59:11Z) - Parallelising the Queries in Bucket Brigade Quantum RAM [69.43216268165402]
量子アルゴリズムは、しばしばデータベースのような方法で格納された情報にアクセスするために量子RAM(QRAM)を使用する。
本稿では,Clifford+Tゲートの並列性を利用して,効率的なクエリ時間を大幅に短縮する手法を提案する。
理論的には、フォールトトレラントバケットの量子RAMクエリは古典的なRAMの速度とほぼ一致する。
論文 参考訳(メタデータ) (2020-02-21T14:50:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。