論文の概要: GEVO: GPU Code Optimization using Evolutionary Computation
- arxiv url: http://arxiv.org/abs/2004.08140v2
- Date: Mon, 27 Apr 2020 21:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 12:48:18.294006
- Title: GEVO: GPU Code Optimization using Evolutionary Computation
- Title(参考訳): GEVO:進化計算を用いたGPUコードの最適化
- Authors: Jhe-Yu Liou, Xiaodong Wang, Stephanie Forrest, Carole-Jean Wu
- Abstract要約: GEVOは最適化の機会を発見し、LLVM表現でGPUカーネルのパフォーマンスをチューニングするためのツールである。
GEVOは、NVIDIA Tesla P100上で、Rodiniaベンチマークスイートと機械学習モデルであるSVMとResNet18におけるGPUプログラムの実行時間を改善する。
GEVOはResNet18/CIFAR-10を用いた画像分類において1.79倍の性能向上を実現し、精度は1%未満である。
- 参考スコア(独自算出の注目度): 12.9965710635562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPUs are a key enabler of the revolution in machine learning and high
performance computing, functioning as de facto co-processors to accelerate
large-scale computation. As the programming stack and tool support have
matured, GPUs have also become accessible to programmers, who may lack detailed
knowledge of the underlying architecture and fail to fully leverage the GPU's
computation power. GEVO (Gpu optimization using EVOlutionary computation) is a
tool for automatically discovering optimization opportunities and tuning the
performance of GPU kernels in the LLVM representation. GEVO uses
population-based search to find edits to GPU code compiled to LLVM-IR and
improves performance on desired criteria while retaining required
functionality. We demonstrate that GEVO improves the execution time of the GPU
programs in the Rodinia benchmark suite and the machine learning models, SVM
and ResNet18, on NVIDIA Tesla P100. For the Rodinia benchmarks, GEVO improves
GPU kernel runtime performance by an average of 49.48% and by as much as 412%
over the fully compiler-optimized baseline. If kernel output accuracy is
relaxed to tolerate up to 1% error, GEVO can find kernel variants that
outperform the baseline version by an average of 51.08%. For the machine
learning workloads, GEVO achieves kernel performance improvement for SVM on the
MNIST handwriting recognition (3.24X) and the a9a income prediction (2.93X)
datasets with no loss of model accuracy. GEVO achieves 1.79X kernel performance
improvement on image classification using ResNet18/CIFAR-10, with less than 1%
model accuracy reduction.
- Abstract(参考訳): GPUは、機械学習とハイパフォーマンスコンピューティングにおける革命の重要な実現要因であり、大規模な計算を加速するデファクトコプロセッサとして機能する。
プログラミングスタックとツールのサポートが成熟するにつれ、gpuは基盤となるアーキテクチャに関する詳細な知識がなく、gpuの計算能力を完全に活用できないプログラマにもアクセス可能になった。
GEVO(Gpu Optimization using EVOlutionary Computing)は、LLVM表現で最適化の機会を自動的に発見し、GPUカーネルのパフォーマンスをチューニングするためのツールである。
GEVOは、LLVM-IRにコンパイルされたGPUコードの編集を見つけるために人口ベースの検索を使用し、必要な機能を維持しながら、所望の基準でのパフォーマンスを改善する。
GEVOは、NVIDIA Tesla P100上で、Rodiniaベンチマークスイートと機械学習モデルであるSVMとResNet18におけるGPUプログラムの実行時間を改善することを実証した。
rodiniaベンチマークでは、gevoはgpuカーネルランタイムのパフォーマンスを平均49.48%改善し、完全なコンパイラ最適化ベースラインよりも412%向上した。
カーネル出力精度が1%のエラーに耐えるために緩和された場合、GEVOは平均51.08%でベースラインバージョンを上回るカーネル変種を見つけることができる。
機械学習のワークロードでは、GEVOはMNISTの手書き文字認識(3.24X)とa9aの収入予測(2.93X)データセットでSVMのカーネル性能を向上し、モデルの精度を損なわない。
GEVOはResNet18/CIFAR-10を用いた画像分類において1.79倍の性能向上を実現し、精度は1%未満である。
関連論文リスト
- TorchSparse++: Efficient Training and Inference Framework for Sparse
Convolution on GPUs [20.4238781638402]
スパース畳み込みは、AR/VRにおけるポイントクラウド処理、自動運転、レコメンデーションシステムにおけるグラフ理解など、新興ワークロードにおいて重要な役割を果たす。
既存のGPUライブラリはスパース畳み込みのための2つのデータフロー型を提供する。
TorchSparse++は、両方の世界のベストを達成するための新しいGPUライブラリです。
論文 参考訳(メタデータ) (2023-10-25T21:02:38Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。
実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文 参考訳(メタデータ) (2023-07-14T22:52:27Z) - Benchmarking Edge Computing Devices for Grape Bunches and Trunks
Detection using Accelerated Object Detection Single Shot MultiBox Deep
Learning Models [2.1922186455344796]
この研究は、オブジェクト検出のための異なるプラットフォームのパフォーマンスをリアルタイムでベンチマークする。
著者らは、自然なVineデータセットを使用して、RetinaNet ResNet-50を微調整した。
論文 参考訳(メタデータ) (2022-11-21T17:02:33Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - At-Scale Sparse Deep Neural Network Inference with Efficient GPU
Implementation [24.824295164938604]
本稿では,Sparse Deep Neural Network Challenge 2020の推論モデルに対するGPU性能の最適化とスケーリング結果について述べる。
スパースディープニューラルネットワーク(SpDNN)は、大規模なニューラルネットワークのメモリフットプリントを制御することを約束している。
本研究では,ReLU関数と融合したスパース行列乗算カーネルを提案する。
論文 参考訳(メタデータ) (2020-07-28T12:09:43Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - A Simple Model for Portable and Fast Prediction of Execution Time and
Power Consumption of GPU Kernels [2.9853894456071077]
このモデルは、Parboil、Rodinia、Polybench-GPU、SHOCなどのベンチマークから189個の計算カーネルを使用してランダムなフォレストに基づいて構築されている。
クロスバリデーションを用いたモデル性能の評価では、中央値平均パーセンテージエラー(MAPE)は8.86-52.00%と1.84-2.94%で、それぞれ5つのGPUで電力予測を行う。
論文 参考訳(メタデータ) (2020-01-20T13:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。