論文の概要: Kernel Looping: Eliminating Synchronization Boundaries for Peak Inference Performance
- arxiv url: http://arxiv.org/abs/2410.23668v1
- Date: Thu, 31 Oct 2024 06:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:02.939861
- Title: Kernel Looping: Eliminating Synchronization Boundaries for Peak Inference Performance
- Title(参考訳): Kernel Looping: ピーク推論性能のための同期境界の排除
- Authors: David Koeplinger, Darshan Gandhi, Pushkar Nandkar, Nathan Sheeley, Matheen Musaddiq, Leon Zhang, Reid Goodbar, Matthew Shaffer, Han Wang, Angela Wang, Mingran Wang, Raghu Prabhakar,
- Abstract要約: カーネルループは、現代のデータフローアーキテクチャにおいて可能なユニークな層レベルの融合と、言語モデルで繰り返し見られる層構造を利用する。
我々は,AIの商用データフローアクセラレータであるSambaNova SN40L Reconfigurable Dataflow Unit(RDU)のカーネルループを評価する。
- 参考スコア(独自算出の注目度): 2.747566636546902
- License:
- Abstract: Token generation speed is critical to power the next wave of AI inference applications. GPUs significantly underperform during token generation due to synchronization overheads at kernel boundaries, utilizing only 21% of their peak memory bandwidth. While recent dataflow architectures mitigate these overheads by enabling aggressive fusion of decoder layers into a single kernel, they too leave performance on the table due to synchronization penalties at layer boundaries. This paper presents kernel looping, a specialized global optimization technique which exploits an optimization opportunity brought by combining the unique layer-level fusion possible in modern dataflow architectures with the repeated layer structure found in language models. Kernel looping eliminates synchronization costs between consecutive calls to the same kernel by transforming these calls into a single call to a modified kernel containing a pipelined outer loop. We evaluate kernel looping on the SambaNova SN40L Reconfigurable Dataflow Unit (RDU), a commercial dataflow accelerator for AI. Experiments demonstrate that kernel looping speeds up the decode phase of a wide array of powerful open-source models by up to 2.2$\times$ on SN40L. Kernel looping allows scaling of decode performance over multiple SN40L sockets, achieving speedups of up to 2.5$\times$. Finally, kernel looping enables SN40L to achieve over 90% of peak performance on 8 and 16 sockets and achieve a speedup of up to 3.7$\times$ over DGX H100. Kernel looping, as well as the models evaluated in this paper, are deployed in production in a commercial AI inference cloud.
- Abstract(参考訳): トークン生成速度は、AI推論アプリケーションの次の波を動かすために重要である。
GPUはカーネル境界での同期オーバーヘッドによりトークン生成時に著しく性能が低下し、ピークメモリ帯域幅の21%しか利用できなかった。
最近のデータフローアーキテクチャは、デコーダ層を1つのカーネルにアグレッシブに融合させることで、これらのオーバーヘッドを軽減するが、レイヤ境界における同期ペナルティのため、テーブル上でのパフォーマンスも維持する。
本稿では,現代データフローアーキテクチャにおけるユニークな層レベルの融合と,言語モデルに見られる繰り返し層構造を組み合わせた最適化手法であるカーネルループについて述べる。
カーネルループは、これらの呼び出しをパイプライン化された外部ループを含む変更されたカーネルへの単一の呼び出しに変換することで、同一カーネルへの連続呼び出し間の同期コストをなくす。
我々は,AIの商用データフローアクセラレータであるSambaNova SN40L Reconfigurable Dataflow Unit(RDU)のカーネルループを評価する。
実験により、カーネルループはSN40L上の2.2$\times$までの強力なオープンソースモデルのデコードフェーズを高速化することを示した。
カーネルループにより、複数のSN40Lソケット上でのデコードパフォーマンスのスケーリングが可能になり、最大2.5$\times$のスピードアップを実現する。
最後に、SN40Lは8ソケットと16ソケットのピーク性能の90%以上を達成でき、最大3.7$\times$ over DGX H100を達成できる。
カーネルループは、この論文で評価されたモデルと同様に、商用AI推論クラウドで本番環境にデプロイされる。
関連論文リスト
- MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising [49.785626309848276]
AsyncDiffは、複数のデバイスにまたがるモデル並列化を可能にする、普遍的でプラグアンドプレイのアクセラレーションスキームである。
安定拡散 v2.1 では、AsyncDiff は2.7倍の速度アップと4.0倍のスピードアップを実現し、CLIPスコアの 0.38 をわずかに削減した。
我々の実験は、AsyncDiffがビデオ拡散モデルに容易に適用でき、性能を向上できることを示した。
論文 参考訳(メタデータ) (2024-06-11T03:09:37Z) - FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-06-11T00:17:39Z) - Kernel-U-Net: Multivariate Time Series Forecasting using Custom Kernels [1.8816077341295625]
Kernel-U-Netは、柔軟でカーネルにカスタマイズ可能なU字型ニューラルネットワークアーキテクチャである。
具体的には、カーネル-U-Netは入力時系列をカーネル操作からパッチに分割する手順を分離する。
1)特定のデータセットに適応するためのカーネルのカスタマイズの柔軟性、2)トランスフォーマー層の複雑さを線形に減らした計算効率の向上、である。
論文 参考訳(メタデータ) (2024-01-03T00:49:51Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Multiple Kernel Clustering with Dual Noise Minimization [56.009011016367744]
マルチカーネルクラスタリング(MKC)は、ベースカーネルから補完的な情報を統合することでデータをグループ化する。
本稿では,双対雑音を厳密に定義し,パラメータフリーなMKCアルゴリズムを提案する。
二重ノイズはブロック対角構造を汚染し,クラスタリング性能の劣化を招き,CノイズはNノイズよりも強い破壊を示す。
論文 参考訳(メタデータ) (2022-07-13T08:37:42Z) - FlexConv: Continuous Kernel Convolutions with Differentiable Kernel
Sizes [34.90912459206022]
最近の研究によると、CNNは異なるレイヤの異なるカーネルサイズから恩恵を受けているが、実際にはすべての可能な組み合わせを探索することは不可能である。
本稿では,学習可能なカーネルサイズの高い帯域幅の畳み込みカーネルを固定パラメータコストで学習可能な新しい畳み込み演算FlexConvを提案する。
論文 参考訳(メタデータ) (2021-10-15T12:35:49Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。