論文の概要: GEVO: GPU Code Optimization using Evolutionary Computation
- arxiv url: http://arxiv.org/abs/2004.08140v2
- Date: Mon, 27 Apr 2020 21:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 12:48:18.294006
- Title: GEVO: GPU Code Optimization using Evolutionary Computation
- Title(参考訳): GEVO:進化計算を用いたGPUコードの最適化
- Authors: Jhe-Yu Liou, Xiaodong Wang, Stephanie Forrest, Carole-Jean Wu
- Abstract要約: GEVOは最適化の機会を発見し、LLVM表現でGPUカーネルのパフォーマンスをチューニングするためのツールである。
GEVOは、NVIDIA Tesla P100上で、Rodiniaベンチマークスイートと機械学習モデルであるSVMとResNet18におけるGPUプログラムの実行時間を改善する。
GEVOはResNet18/CIFAR-10を用いた画像分類において1.79倍の性能向上を実現し、精度は1%未満である。
- 参考スコア(独自算出の注目度): 12.9965710635562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPUs are a key enabler of the revolution in machine learning and high
performance computing, functioning as de facto co-processors to accelerate
large-scale computation. As the programming stack and tool support have
matured, GPUs have also become accessible to programmers, who may lack detailed
knowledge of the underlying architecture and fail to fully leverage the GPU's
computation power. GEVO (Gpu optimization using EVOlutionary computation) is a
tool for automatically discovering optimization opportunities and tuning the
performance of GPU kernels in the LLVM representation. GEVO uses
population-based search to find edits to GPU code compiled to LLVM-IR and
improves performance on desired criteria while retaining required
functionality. We demonstrate that GEVO improves the execution time of the GPU
programs in the Rodinia benchmark suite and the machine learning models, SVM
and ResNet18, on NVIDIA Tesla P100. For the Rodinia benchmarks, GEVO improves
GPU kernel runtime performance by an average of 49.48% and by as much as 412%
over the fully compiler-optimized baseline. If kernel output accuracy is
relaxed to tolerate up to 1% error, GEVO can find kernel variants that
outperform the baseline version by an average of 51.08%. For the machine
learning workloads, GEVO achieves kernel performance improvement for SVM on the
MNIST handwriting recognition (3.24X) and the a9a income prediction (2.93X)
datasets with no loss of model accuracy. GEVO achieves 1.79X kernel performance
improvement on image classification using ResNet18/CIFAR-10, with less than 1%
model accuracy reduction.
- Abstract(参考訳): GPUは、機械学習とハイパフォーマンスコンピューティングにおける革命の重要な実現要因であり、大規模な計算を加速するデファクトコプロセッサとして機能する。
プログラミングスタックとツールのサポートが成熟するにつれ、gpuは基盤となるアーキテクチャに関する詳細な知識がなく、gpuの計算能力を完全に活用できないプログラマにもアクセス可能になった。
GEVO(Gpu Optimization using EVOlutionary Computing)は、LLVM表現で最適化の機会を自動的に発見し、GPUカーネルのパフォーマンスをチューニングするためのツールである。
GEVOは、LLVM-IRにコンパイルされたGPUコードの編集を見つけるために人口ベースの検索を使用し、必要な機能を維持しながら、所望の基準でのパフォーマンスを改善する。
GEVOは、NVIDIA Tesla P100上で、Rodiniaベンチマークスイートと機械学習モデルであるSVMとResNet18におけるGPUプログラムの実行時間を改善することを実証した。
rodiniaベンチマークでは、gevoはgpuカーネルランタイムのパフォーマンスを平均49.48%改善し、完全なコンパイラ最適化ベースラインよりも412%向上した。
カーネル出力精度が1%のエラーに耐えるために緩和された場合、GEVOは平均51.08%でベースラインバージョンを上回るカーネル変種を見つけることができる。
機械学習のワークロードでは、GEVOはMNISTの手書き文字認識(3.24X)とa9aの収入予測(2.93X)データセットでSVMのカーネル性能を向上し、モデルの精度を損なわない。
GEVOはResNet18/CIFAR-10を用いた画像分類において1.79倍の性能向上を実現し、精度は1%未満である。
関連論文リスト
- Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文 参考訳(メタデータ) (2024-07-29T00:14:10Z) - Forecasting GPU Performance for Deep Learning Training and Inference [10.741682409837612]
NeuSightは、トレーニングと推論の両方のために、実際の実行を必要とせずに、見えないGPU上で、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークである。
NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。
GPT3モデルのトレーニングとH100での推論の遅延を予測して、198%と19.7%から3.8%に減少する。
論文 参考訳(メタデータ) (2024-07-18T18:47:52Z) - Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent [48.791943145735]
カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。
このアプローチを、Ansorが生成した最初の300のカーネルに適用する。
この結果は20の有名なディープラーニングモデルで再現されている。
論文 参考訳(メタデータ) (2024-06-28T16:34:22Z) - Optimal Kernel Tuning Parameter Prediction using Deep Sequence Models [0.44998333629984877]
本稿では,深部列列列モデルを用いて,計算カーネルを管理する最適チューニングパラメータを予測する手法を提案する。
提案アルゴリズムは、AMD機械学習プリミティブライブラリであるMIOpenにおいて、様々な畳み込みカーネル上で90%以上の精度を達成することができる。
論文 参考訳(メタデータ) (2024-04-15T22:25:54Z) - SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。
また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。
近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文 参考訳(メタデータ) (2024-03-25T15:26:50Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。
実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文 参考訳(メタデータ) (2023-07-14T22:52:27Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。