論文の概要: Systolic Computing on GPUs for Productive Performance
- arxiv url: http://arxiv.org/abs/2010.15884v1
- Date: Thu, 29 Oct 2020 18:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 23:11:00.425027
- Title: Systolic Computing on GPUs for Productive Performance
- Title(参考訳): プロダクティブパフォーマンスのためのGPU上のシストリックコンピューティング
- Authors: Hongbo Rong, Xiaochen Hao, Yun Liang, Lidong Xu, Hong H Jiang, Pradeep
Dubey
- Abstract要約: 我々は,GPU上で動作する高性能なシストリックアレイを生産的に構築する言語とコンパイラを提案する。
プログラマは、データフローのプロジェクションを線形シストリック配列に指定し、プロジェクションの詳細な実装はコンパイラに任せる。
コンパイラは指定されたプロジェクションを実装し、リニアシストリックアレイをGPUのSIMD実行ユニットとベクトルレジスタにマッピングする。
- 参考スコア(独自算出の注目度): 2.8064596842326575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a language and compiler to productively build high-performance
{\it software systolic arrays} that run on GPUs. Based on a rigorous
mathematical foundation (uniform recurrence equations and space-time
transform), our language has a high abstraction level and covers a wide range
of applications. A programmer {\it specifies} a projection of a dataflow
compute onto a linear systolic array, while leaving the detailed implementation
of the projection to a compiler; the compiler implements the specified
projection and maps the linear systolic array to the SIMD execution units and
vector registers of GPUs. In this way, both productivity and performance are
achieved in the same time. This approach neatly combines loop transformations,
data shuffling, and vector register allocation into a single framework.
Meanwhile, many other optimizations can be applied as well; the compiler
composes the optimizations together to generate efficient code.
We implemented the approach on Intel GPUs. This is the first system that
allows productive construction of systolic arrays on GPUs. We allow multiple
projections, arbitrary projection directions and linear schedules, which can
express most, if not all, systolic arrays in practice. Experiments with 1- and
2-D convolution on an Intel GEN9.5 GPU have demonstrated the generality of the
approach, and its productivity in expressing various systolic designs for
finding the best candidate. Although our systolic arrays are purely software
running on generic SIMD hardware, compared with the GPU's specialized, hardware
samplers that perform the same convolutions, some of our best designs are up to
59\% faster. Overall, this approach holds promise for productive
high-performance computing on GPUs.
- Abstract(参考訳): 我々は,gpu上で動作する高性能なソフトウェアsystolic arrayを生産的に構築する言語とコンパイラを提案する。
厳密な数学的基礎(一様再帰方程式と時空変換)に基づいて、我々の言語は高い抽象化レベルを持ち、幅広い応用範囲をカバーする。
プログラマは、データフローのプロジェクションを線形シストリック配列に計算し、プロジェクションの詳細な実装をコンパイラに委ねる。コンパイラは指定されたプロジェクションを実装し、リニアシストリック配列をsimd実行ユニットとgpuのベクターレジスタにマップする。
このようにして、生産性とパフォーマンスは同時に達成されます。
このアプローチはループ変換、データシャッフル、ベクターレジスタの割り当てを単一のフレームワークにうまく組み合わせます。
一方、他の多くの最適化も適用できる。コンパイラは効率的なコードを生成するために最適化を一緒に構成する。
我々はそのアプローチをIntel GPUに実装した。
これはgpu上のsystolic配列を生産的に構築できる最初のシステムである。
複数の射影、任意の射影方向、線形スケジュールを許容し、実際、ほとんどのシストリック配列を表現できる。
Intel GEN9.5 GPU上での1次元と2次元の畳み込み実験では、このアプローチの汎用性や、最適な候補を見つけるための様々なシストリック設計を表現する生産性が示されている。
当社のsystolic配列は、汎用simdハードウェア上で動作する純粋にソフトウェアですが、同じ畳み込みを実行するgpuの専用ハードウェアサンプラーと比較すると、最良の設計のいくつかは最大59\%高速です。
全体として、このアプローチはGPU上で生産的なハイパフォーマンスコンピューティングを約束する。
関連論文リスト
- SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。
また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。
近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文 参考訳(メタデータ) (2024-03-25T15:26:50Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Efficient GPU implementation of randomized SVD and its applications [17.71779625877989]
行列分解は、次元データの圧縮やディープラーニングアルゴリズムなど、機械学習においてユビキタスである。
行列分解の典型的な解は、計算コストと時間を大幅に増大させる複雑さを持つ。
我々は,計算行列分解の計算負担を軽減するために,現代のグラフィカル処理ユニット(GPU)で並列に動作する効率的な処理操作を利用する。
論文 参考訳(メタデータ) (2021-10-05T07:42:41Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with
Fine-Grain Utilization [5.02836935036198]
本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュール可能なRTGPUを提案する。
提案手法は,従来の作業に比べてスケジューリング性に優れ,複数のGPUアプリケーションに厳しい期限をリアルタイムに保証する。
論文 参考訳(メタデータ) (2021-01-25T22:34:06Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。