論文の概要: BB-ML: Basic Block Performance Prediction using Machine Learning
Techniques
- arxiv url: http://arxiv.org/abs/2202.07798v2
- Date: Fri, 18 Feb 2022 04:47:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 12:43:41.897256
- Title: BB-ML: Basic Block Performance Prediction using Machine Learning
Techniques
- Title(参考訳): BB-ML:機械学習を用いた基本ブロック性能予測
- Authors: Shamminuj Aktar, Hamdy Abdelkhalik, Nazmul Haque Turja, Yehia Arafa,
Atanu Barai, Nishant Panda, Gopinath Chennupati, Nandakishore Santhi, Stephan
Eidenbenz and Abdel-Hameed Badawy
- Abstract要約: 我々は,より粒度の細かい性能予測,すなわちベーシックブロック(BB)のレベルでの機械学習技術を用いることを提案する。
BBは、すべてのコンパイラが大規模なコードを管理可能な部分に分解するために分析ツールとして使用する、単一のエントリーシングルのエグジットコードブロックである。
我々は、Poisson Neural Network(PNN)とBayesian Regularization Backpropagation Neural Network(BR-BPNN)の2つのMLモデルを採用する。
- 参考スコア(独自算出の注目度): 0.9164749955878709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen the adoption of Machine Learning (ML) techniques to
predict the performance of large-scale applications, mostly at a coarse level.
In contrast, we propose to use ML techniques for performance prediction at much
finer granularity, namely at the levels of Basic Block (BB), which are the
single entry-single exit code blocks that are used as analysis tools by all
compilers to break down a large code into manageable pieces. Utilizing ML and
BB analysis together can enable scalable hardware-software co-design beyond the
current state of the art. In this work, we extrapolate the basic block
execution counts of GPU applications for large inputs sizes from the counts of
smaller input sizes of the same application.
We employ two ML models, a Poisson Neural Network (PNN) and a Bayesian
Regularization Backpropagation Neural Network (BR-BPNN). We train both models
using the lowest input values of the application and random input values to
predict basic block counts. Results show that our models accurately predict the
basic block execution counts of 16 benchmark applications. For PNN and BR-BPNN
models, we achieve an average accuracy of 93.5% and 95.6%, respectively, while
extrapolating the basic block counts for large input sets when the model is
trained using smaller input sets. Additionally, the models show an average
accuracy of 97.7% and 98.1%, respectively, while predicting basic block counts
on random instances.
- Abstract(参考訳): 近年では、主に粗いレベルで、大規模アプリケーションのパフォーマンスを予測するために機械学習(ml)技術が採用されている。
対照的に、我々はML技術を用いてパフォーマンス予測をはるかにきめ細かな粒度で行うことを提案し、すなわち、すべてのコンパイラが分析ツールとして使用する単一のエントリ単一出口コードブロックであるベーシックブロック(BB)のレベルにおいて、大きなコードを管理可能なピースに分解する。
mlとbb分析を組み合わせることで、現在の技術を超えたスケーラブルなハードウェアとソフトウェアの共同設計が可能になる。
本稿では、gpuアプリケーションの基本ブロック実行数を、同じアプリケーションのより小さな入力サイズの数から、大きな入力サイズに推定する。
我々は、Poisson Neural Network(PNN)とBayesian Regularization Backpropagation Neural Network(BR-BPNN)の2つのMLモデルを採用する。
基本ブロック数を予測するために,アプリケーションの最下位入力値とランダム入力値を用いて両方のモデルを訓練する。
その結果,16種類のベンチマークアプリケーションのブロック実行回数を正確に予測できた。
PNNモデルとBR-BPNNモデルでは、それぞれ93.5%と95.6%の平均精度を達成し、モデルがより小さな入力セットを用いてトレーニングされた場合、大きな入力セットに対する基本ブロック数を外挿する。
さらに、モデルはそれぞれ97.7%と98.1%の精度を示し、ランダムなインスタンスの基本的なブロック数を予測する。
関連論文リスト
- Understanding GEMM Performance and Energy on NVIDIA Ada Lovelace: A Machine Learning-Based Analytical Approach [0.8192907805418583]
本研究では、カスタム実装のタイル付き行列乗算カーネルとNVIDIAのCUTLASSライブラリの2つのアプローチを用いる。
我々は多出力回帰機能を持つランダムフォレストに基づく予測モデルを開発した。
我々のフレームワークは、実行時予測のR2スコアが0.98、電力予測の0.78で例外的精度を達成した。
論文 参考訳(メタデータ) (2024-11-25T21:47:23Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Investigating Resource-efficient Neutron/Gamma Classification ML Models Targeting eFPGAs [0.0]
オープンソース組み込みFPGA(eFPGA)フレームワークは、ハードウェアに機械学習モデルを実装するための、代替的で柔軟な経路を提供する。
完全連結ニューラルネットワーク(fcNN)と強化決定木(BDT)モデルのeFPGA実装のパラメータ空間について検討する。
この研究結果は、テストチップの一部として統合されるeFPGAファブリックの仕様策定を支援するために使用される。
論文 参考訳(メタデータ) (2024-04-19T20:03:30Z) - How predictable is language model benchmark performance? [0.07143413923310668]
平均ベンチマーク性能は、多くの個別タスクを集約し、計算スケールを訓練する機能として十分に予測可能であることを示す。
個々のタスクのパフォーマンスは、偶然よりもはるかに予測可能である。
論文 参考訳(メタデータ) (2024-01-09T17:34:30Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - A contextual analysis of multi-layer perceptron models in classifying
hand-written digits and letters: limited resources [0.0]
我々は,前処理や特徴抽出を行わずに,終端から終端までのバニラニューラルネットワーク(MLP)アプローチを純粋に検証した。
基礎的なデータマイニング操作は,計算時間の観点からモデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2021-07-05T04:30:37Z) - Semiring Primitives for Sparse Neighborhood Methods on the GPU [16.56995698312561]
スパース半環プリミティブは、幅広い臨界距離測度をサポートするのに十分な柔軟性を持つことができる。
このプリミティブは、多くの近隣情報検索と機械学習アルゴリズムがスパース入力を受け付けるための基礎的なコンポーネントである。
論文 参考訳(メタデータ) (2021-04-13T17:05:03Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。