論文の概要: BB-ML: Basic Block Performance Prediction using Machine Learning
Techniques
- arxiv url: http://arxiv.org/abs/2202.07798v3
- Date: Sun, 12 Nov 2023 04:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 00:54:36.319895
- Title: BB-ML: Basic Block Performance Prediction using Machine Learning
Techniques
- Title(参考訳): BB-ML:機械学習を用いた基本ブロック性能予測
- Authors: Hamdy Abdelkhalik, Shamminuj Aktar, Yehia Arafa, Atanu Barai, Gopinath
Chennupati, Nandakishore Santhi, Nishant Panda, Nirmal Prajapati, Nazmul
Haque Turja, Stephan Eidenbenz and Abdel-Hameed Badawy
- Abstract要約: 我々は,機械学習(ML)技術を用いて,より微細な粒度,すなわちBasic Block(BB)レベルでの性能予測を行う。
我々は、GPUアプリケーションの基本的なブロック実行数を外挿し、より小さな入力サイズの数から大きな入力サイズのパフォーマンスを予測するためにそれらを使用する。
我々は、より小さな入力セットでトレーニングした場合に、大きな入力セットに対する基本ブロック数を外挿する精度93.5%を達成する。
- 参考スコア(独自算出の注目度): 0.6020800302423842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen the adoption of Machine Learning (ML) techniques to
predict the performance of large-scale applications, mostly at a coarse level.
In contrast, we propose to use ML techniques for performance prediction at a
much finer granularity, namely at the Basic Block (BB) level, which are single
entry, single exit code blocks that are used for analysis by the compilers to
break down a large code into manageable pieces. We extrapolate the basic block
execution counts of GPU applications and use them for predicting the
performance for large input sizes from the counts of smaller input sizes. We
train a Poisson Neural Network (PNN) model using random input values as well as
the lowest input values of the application to learn the relationship between
inputs and basic block counts. Experimental results show that the model can
accurately predict the basic block execution counts of 16 GPU benchmarks. We
achieve an accuracy of 93.5% in extrapolating the basic block counts for large
input sets when trained on smaller input sets and an accuracy of 97.7% in
predicting basic block counts on random instances. In a case study, we apply
the ML model to CUDA GPU benchmarks for performance prediction across a
spectrum of applications. We use a variety of metrics for evaluation, including
global memory requests and the active cycles of tensor cores, ALU, and FMA
units. Results demonstrate the model's capability of predicting the performance
of large datasets with an average error rate of 0.85% and 0.17% for global and
shared memory requests, respectively. Additionally, to address the utilization
of the main functional units in Ampere architecture GPUs, we calculate the
active cycles for tensor cores, ALU, FMA, and FP64 units and achieve an average
error of 2.3% and 10.66% for ALU and FMA units while the maximum observed error
across all tested applications and units reaches 18.5%.
- Abstract(参考訳): 近年では、主に粗いレベルで、大規模アプリケーションのパフォーマンスを予測するために機械学習(ml)技術が採用されている。
対照的に,我々はML技術を用いて,より粒度の細かいパフォーマンス予測を行うことを提案する。すなわち,単一エントリであるBasic Block(BB)レベルでは,コンパイラによって解析に使用される単一終了コードブロックを用いて,大規模なコードを管理可能な断片に分解する。
我々は、GPUアプリケーションの基本的なブロック実行数を外挿し、より小さな入力サイズの数から大きな入力サイズのパフォーマンスを予測するためにそれらを使用する。
我々は、ランダムな入力値とアプリケーションの最低入力値を用いて、Poisson Neural Network(PNN)モデルをトレーニングし、入力と基本ブロック数の関係を学習する。
実験の結果,16gpuベンチマークの基本ブロック実行数を正確に予測できることがわかった。
本研究では,小さな入力セットで学習した場合,大規模入力セットの基本ブロック数を推定する精度93.5%,ランダムインスタンスでの基本ブロック数を予測する場合の精度97.7%を達成する。
ケーススタディでは、MLモデルをCUDA GPUベンチマークに適用し、幅広いアプリケーションのパフォーマンス予測を行う。
評価には,グローバルメモリ要求やテンソルコア,ALU,FMAユニットのアクティブサイクルなど,さまざまな指標を使用します。
その結果、グローバルおよび共有メモリ要求に対して平均エラー率0.85%と0.17%の大規模なデータセットのパフォーマンスを予測するモデルの能力を示す。
さらに、AmpereアーキテクチャGPUにおける主要な機能ユニットの利用に対処するため、テンソルコア、ALU、FMA、FP64ユニットのアクティブサイクルを計算し、ALUおよびFMAユニットの平均誤差2.3%と10.66%を達成し、テスト対象のアプリケーションとユニットの最大誤差は18.5%に達する。
関連論文リスト
- How predictable is language model benchmark performance? [0.07143413923310668]
平均ベンチマーク性能は、多くの個別タスクを集約し、計算スケールを訓練する機能として十分に予測可能であることを示す。
個々のタスクのパフォーマンスは、偶然よりもはるかに予測可能である。
論文 参考訳(メタデータ) (2024-01-09T17:34:30Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - A contextual analysis of multi-layer perceptron models in classifying
hand-written digits and letters: limited resources [0.0]
我々は,前処理や特徴抽出を行わずに,終端から終端までのバニラニューラルネットワーク(MLP)アプローチを純粋に検証した。
基礎的なデータマイニング操作は,計算時間の観点からモデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2021-07-05T04:30:37Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Semiring Primitives for Sparse Neighborhood Methods on the GPU [16.56995698312561]
スパース半環プリミティブは、幅広い臨界距離測度をサポートするのに十分な柔軟性を持つことができる。
このプリミティブは、多くの近隣情報検索と機械学習アルゴリズムがスパース入力を受け付けるための基礎的なコンポーネントである。
論文 参考訳(メタデータ) (2021-04-13T17:05:03Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - A Simple Model for Portable and Fast Prediction of Execution Time and
Power Consumption of GPU Kernels [2.9853894456071077]
このモデルは、Parboil、Rodinia、Polybench-GPU、SHOCなどのベンチマークから189個の計算カーネルを使用してランダムなフォレストに基づいて構築されている。
クロスバリデーションを用いたモデル性能の評価では、中央値平均パーセンテージエラー(MAPE)は8.86-52.00%と1.84-2.94%で、それぞれ5つのGPUで電力予測を行う。
論文 参考訳(メタデータ) (2020-01-20T13:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。