Fugu-MT 論文翻訳(概要): GEVO: GPU Code Optimization using Evolutionary Computation

論文の概要: GEVO: GPU Code Optimization using Evolutionary Computation

arxiv url: http://arxiv.org/abs/2004.08140v2
Date: Mon, 27 Apr 2020 21:30:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-12 12:48:18.294006
Title: GEVO: GPU Code Optimization using Evolutionary Computation
Title（参考訳）: GEVO:進化計算を用いたGPUコードの最適化
Authors: Jhe-Yu Liou, Xiaodong Wang, Stephanie Forrest, Carole-Jean Wu
Abstract要約: GEVOは最適化の機会を発見し、LLVM表現でGPUカーネルのパフォーマンスをチューニングするためのツールである。 GEVOは、NVIDIA Tesla P100上で、Rodiniaベンチマークスイートと機械学習モデルであるSVMとResNet18におけるGPUプログラムの実行時間を改善する。 GEVOはResNet18/CIFAR-10を用いた画像分類において1.79倍の性能向上を実現し、精度は1%未満である。
参考スコア（独自算出の注目度）: 12.9965710635562
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: GPUs are a key enabler of the revolution in machine learning and high performance computing, functioning as de facto co-processors to accelerate large-scale computation. As the programming stack and tool support have matured, GPUs have also become accessible to programmers, who may lack detailed knowledge of the underlying architecture and fail to fully leverage the GPU's computation power. GEVO (Gpu optimization using EVOlutionary computation) is a tool for automatically discovering optimization opportunities and tuning the performance of GPU kernels in the LLVM representation. GEVO uses population-based search to find edits to GPU code compiled to LLVM-IR and improves performance on desired criteria while retaining required functionality. We demonstrate that GEVO improves the execution time of the GPU programs in the Rodinia benchmark suite and the machine learning models, SVM and ResNet18, on NVIDIA Tesla P100. For the Rodinia benchmarks, GEVO improves GPU kernel runtime performance by an average of 49.48% and by as much as 412% over the fully compiler-optimized baseline. If kernel output accuracy is relaxed to tolerate up to 1% error, GEVO can find kernel variants that outperform the baseline version by an average of 51.08%. For the machine learning workloads, GEVO achieves kernel performance improvement for SVM on the MNIST handwriting recognition (3.24X) and the a9a income prediction (2.93X) datasets with no loss of model accuracy. GEVO achieves 1.79X kernel performance improvement on image classification using ResNet18/CIFAR-10, with less than 1% model accuracy reduction.
Abstract（参考訳）: GPUは、機械学習とハイパフォーマンスコンピューティングにおける革命の重要な実現要因であり、大規模な計算を加速するデファクトコプロセッサとして機能する。プログラミングスタックとツールのサポートが成熟するにつれ、gpuは基盤となるアーキテクチャに関する詳細な知識がなく、gpuの計算能力を完全に活用できないプログラマにもアクセス可能になった。 GEVO(Gpu Optimization using EVOlutionary Computing)は、LLVM表現で最適化の機会を自動的に発見し、GPUカーネルのパフォーマンスをチューニングするためのツールである。 GEVOは、LLVM-IRにコンパイルされたGPUコードの編集を見つけるために人口ベースの検索を使用し、必要な機能を維持しながら、所望の基準でのパフォーマンスを改善する。 GEVOは、NVIDIA Tesla P100上で、Rodiniaベンチマークスイートと機械学習モデルであるSVMとResNet18におけるGPUプログラムの実行時間を改善することを実証した。 rodiniaベンチマークでは、gevoはgpuカーネルランタイムのパフォーマンスを平均49.48%改善し、完全なコンパイラ最適化ベースラインよりも412%向上した。カーネル出力精度が1%のエラーに耐えるために緩和された場合、GEVOは平均51.08%でベースラインバージョンを上回るカーネル変種を見つけることができる。機械学習のワークロードでは、GEVOはMNISTの手書き文字認識(3.24X)とa9aの収入予測(2.93X)データセットでSVMのカーネル性能を向上し、モデルの精度を損なわない。 GEVOはResNet18/CIFAR-10を用いた画像分類において1.79倍の性能向上を実現し、精度は1%未満である。

関連論文リスト

GPU-Accelerated Interpretable Generalization for Rapid Cyberattack Detection and Forensics [0.0]
IGメカニズムは最近IEEE Transactions on Information Forensics and Securityで公開され、最先端のエビデンスベースの侵入検知を提供する。我々は、PyTorchの再設計であるIG-GPUを紹介し、すべてのペアの交叉とサブセット評価をコモディティGPUにオフロードする。 15kレコードのNSL-KDDデータセットでは、IG-GPUはIGのマルチコアCPU実装よりも116倍のスピードアップを示している。
論文参考訳（メタデータ） (2025-07-16T12:38:19Z)
CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T10:51:03Z)
NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
CASS: Nvidia to AMD Transpilation with Data, Models, and Benchmark [8.97422045170539]
クロスアーキテクチャGPUコードトランスパイレーションのための,最初の大規模データセットとモデルスイートであるCASSを紹介する。データセットは、ホストとデバイス間で70万の検証済みコードペアで構成されている。ドメイン固有言語モデルのCASSファミリーを訓練し、95%のソース翻訳精度と37.5%のアセンブリ翻訳精度を達成する。
論文参考訳（メタデータ） (2025-05-22T17:48:53Z)
Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文参考訳（メタデータ） (2024-07-29T00:14:10Z)
Forecasting GPU Performance for Deep Learning Training and Inference [10.741682409837612]
NeuSightは、トレーニングと推論の両方のために、実際の実行を必要とせずに、見えないGPU上で、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークである。 NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。 GPT3モデルのトレーニングとH100での推論の遅延を予測して、198%と19.7%から3.8%に減少する。
論文参考訳（メタデータ） (2024-07-18T18:47:52Z)
Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent [48.791943145735]
カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。このアプローチを、Ansorが生成した最初の300のカーネルに適用する。この結果は20の有名なディープラーニングモデルで再現されている。
論文参考訳（メタデータ） (2024-06-28T16:34:22Z)
Optimal Kernel Tuning Parameter Prediction using Deep Sequence Models [0.44998333629984877]
本稿では,深部列列列モデルを用いて,計算カーネルを管理する最適チューニングパラメータを予測する手法を提案する。提案アルゴリズムは、AMD機械学習プリミティブライブラリであるMIOpenにおいて、様々な畳み込みカーネル上で90%以上の精度を達成することができる。
論文参考訳（メタデータ） (2024-04-15T22:25:54Z)
SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文参考訳（メタデータ） (2024-03-25T15:26:50Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文参考訳（メタデータ） (2023-07-14T22:52:27Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。