Fugu-MT 論文翻訳(概要): BB-ML: Basic Block Performance Prediction using Machine Learning Techniques

論文の概要: BB-ML: Basic Block Performance Prediction using Machine Learning Techniques

arxiv url: http://arxiv.org/abs/2202.07798v3
Date: Sun, 12 Nov 2023 04:13:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 00:54:36.319895
Title: BB-ML: Basic Block Performance Prediction using Machine Learning Techniques
Title（参考訳）: BB-ML:機械学習を用いた基本ブロック性能予測
Authors: Hamdy Abdelkhalik, Shamminuj Aktar, Yehia Arafa, Atanu Barai, Gopinath Chennupati, Nandakishore Santhi, Nishant Panda, Nirmal Prajapati, Nazmul Haque Turja, Stephan Eidenbenz and Abdel-Hameed Badawy
Abstract要約: 我々は,機械学習(ML)技術を用いて,より微細な粒度,すなわちBasic Block(BB)レベルでの性能予測を行う。我々は、GPUアプリケーションの基本的なブロック実行数を外挿し、より小さな入力サイズの数から大きな入力サイズのパフォーマンスを予測するためにそれらを使用する。我々は、より小さな入力セットでトレーニングした場合に、大きな入力セットに対する基本ブロック数を外挿する精度93.5%を達成する。
参考スコア（独自算出の注目度）: 0.6020800302423842
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent years have seen the adoption of Machine Learning (ML) techniques to predict the performance of large-scale applications, mostly at a coarse level. In contrast, we propose to use ML techniques for performance prediction at a much finer granularity, namely at the Basic Block (BB) level, which are single entry, single exit code blocks that are used for analysis by the compilers to break down a large code into manageable pieces. We extrapolate the basic block execution counts of GPU applications and use them for predicting the performance for large input sizes from the counts of smaller input sizes. We train a Poisson Neural Network (PNN) model using random input values as well as the lowest input values of the application to learn the relationship between inputs and basic block counts. Experimental results show that the model can accurately predict the basic block execution counts of 16 GPU benchmarks. We achieve an accuracy of 93.5% in extrapolating the basic block counts for large input sets when trained on smaller input sets and an accuracy of 97.7% in predicting basic block counts on random instances. In a case study, we apply the ML model to CUDA GPU benchmarks for performance prediction across a spectrum of applications. We use a variety of metrics for evaluation, including global memory requests and the active cycles of tensor cores, ALU, and FMA units. Results demonstrate the model's capability of predicting the performance of large datasets with an average error rate of 0.85% and 0.17% for global and shared memory requests, respectively. Additionally, to address the utilization of the main functional units in Ampere architecture GPUs, we calculate the active cycles for tensor cores, ALU, FMA, and FP64 units and achieve an average error of 2.3% and 10.66% for ALU and FMA units while the maximum observed error across all tested applications and units reaches 18.5%.
Abstract（参考訳）: 近年では、主に粗いレベルで、大規模アプリケーションのパフォーマンスを予測するために機械学習(ml)技術が採用されている。対照的に,我々はML技術を用いて,より粒度の細かいパフォーマンス予測を行うことを提案する。すなわち,単一エントリであるBasic Block(BB)レベルでは,コンパイラによって解析に使用される単一終了コードブロックを用いて,大規模なコードを管理可能な断片に分解する。我々は、GPUアプリケーションの基本的なブロック実行数を外挿し、より小さな入力サイズの数から大きな入力サイズのパフォーマンスを予測するためにそれらを使用する。我々は、ランダムな入力値とアプリケーションの最低入力値を用いて、Poisson Neural Network(PNN)モデルをトレーニングし、入力と基本ブロック数の関係を学習する。実験の結果,16gpuベンチマークの基本ブロック実行数を正確に予測できることがわかった。本研究では,小さな入力セットで学習した場合,大規模入力セットの基本ブロック数を推定する精度93.5%,ランダムインスタンスでの基本ブロック数を予測する場合の精度97.7%を達成する。ケーススタディでは、MLモデルをCUDA GPUベンチマークに適用し、幅広いアプリケーションのパフォーマンス予測を行う。評価には,グローバルメモリ要求やテンソルコア,ALU,FMAユニットのアクティブサイクルなど,さまざまな指標を使用します。その結果、グローバルおよび共有メモリ要求に対して平均エラー率0.85%と0.17%の大規模なデータセットのパフォーマンスを予測するモデルの能力を示す。さらに、AmpereアーキテクチャGPUにおける主要な機能ユニットの利用に対処するため、テンソルコア、ALU、FMA、FP64ユニットのアクティブサイクルを計算し、ALUおよびFMAユニットの平均誤差2.3%と10.66%を達成し、テスト対象のアプリケーションとユニットの最大誤差は18.5%に達する。

関連論文リスト

DataDecide: How to Predict Best Pretraining Data with Small Experiments [67.95896457895404]
私たちはDataDecideのモデル、データ、評価を公開しています。最大100Bトークン,最大1Bパラメータのモデルサイズ,および3つのランダムシードを用いて,25コーパスにわたる事前学習実験を行った。
論文参考訳（メタデータ） (2025-04-15T17:02:15Z)
MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文参考訳（メタデータ） (2025-04-12T21:26:56Z)
Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。 SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文参考訳（メタデータ） (2025-02-06T18:59:47Z)
Understanding GEMM Performance and Energy on NVIDIA Ada Lovelace: A Machine Learning-Based Analytical Approach [0.8192907805418583]
本研究では、カスタム実装のタイル付き行列乗算カーネルとNVIDIAのCUTLASSライブラリの2つのアプローチを用いる。我々は多出力回帰機能を持つランダムフォレストに基づく予測モデルを開発した。我々のフレームワークは、実行時予測のR2スコアが0.98、電力予測の0.78で例外的精度を達成した。
論文参考訳（メタデータ） (2024-11-25T21:47:23Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Investigating Resource-efficient Neutron/Gamma Classification ML Models Targeting eFPGAs [0.0]
オープンソース組み込みFPGA(eFPGA)フレームワークは、ハードウェアに機械学習モデルを実装するための、代替的で柔軟な経路を提供する。完全連結ニューラルネットワーク(fcNN)と強化決定木(BDT)モデルのeFPGA実装のパラメータ空間について検討する。この研究結果は、テストチップの一部として統合されるeFPGAファブリックの仕様策定を支援するために使用される。
論文参考訳（メタデータ） (2024-04-19T20:03:30Z)
How predictable is language model benchmark performance? [0.07143413923310668]
平均ベンチマーク性能は、多くの個別タスクを集約し、計算スケールを訓練する機能として十分に予測可能であることを示す。個々のタスクのパフォーマンスは、偶然よりもはるかに予測可能である。
論文参考訳（メタデータ） (2024-01-09T17:34:30Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文参考訳（メタデータ） (2023-03-02T21:48:22Z)
A contextual analysis of multi-layer perceptron models in classifying hand-written digits and letters: limited resources [0.0]
我々は,前処理や特徴抽出を行わずに,終端から終端までのバニラニューラルネットワーク(MLP)アプローチを純粋に検証した。基礎的なデータマイニング操作は,計算時間の観点からモデルの性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2021-07-05T04:30:37Z)
Semiring Primitives for Sparse Neighborhood Methods on the GPU [16.56995698312561]
スパース半環プリミティブは、幅広い臨界距離測度をサポートするのに十分な柔軟性を持つことができる。このプリミティブは、多くの近隣情報検索と機械学習アルゴリズムがスパース入力を受け付けるための基礎的なコンポーネントである。
論文参考訳（メタデータ） (2021-04-13T17:05:03Z)
Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文参考訳（メタデータ） (2020-09-15T01:59:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。