Fugu-MT 論文翻訳(概要): BB-ML: Basic Block Performance Prediction using Machine Learning Techniques

論文の概要: BB-ML: Basic Block Performance Prediction using Machine Learning Techniques

arxiv url: http://arxiv.org/abs/2202.07798v1
Date: Wed, 16 Feb 2022 00:19:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-17 15:55:54.370274
Title: BB-ML: Basic Block Performance Prediction using Machine Learning Techniques
Title（参考訳）: BB-ML:機械学習を用いた基本ブロック性能予測
Authors: Shamminuj Aktar, Hamdy Abdelkhalik, Nazmul Haque Turja, Yehia Arafa, Atanu Barai, Nishant Panda, Gopinath Chennupati, Nandakishore Santhi, Abdel-Hameed Badawy and Stephan Eidenbenz
Abstract要約: 我々は,より粒度の細かい性能予測,すなわちベーシックブロック(BB)のレベルでの機械学習技術を用いることを提案する。 BBは、すべてのコンパイラが大規模なコードを管理可能な部分に分解するために分析ツールとして使用する、単一のエントリーシングルのエグジットコードブロックである。我々は、Poisson Neural Network(PNN)とBayesian Regularization Backpropagation Neural Network(BR-BPNN)の2つのMLモデルを採用する。
参考スコア（独自算出の注目度）: 0.9164749955878709
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent years have seen the adoption of Machine Learning (ML) techniques to predict the performance of large-scale applications, mostly at a coarse level. In contrast, we propose to use ML techniques for performance prediction at much finer granularity, namely at the levels of Basic Block (BB), which are the single entry-single exit code blocks that are used as analysis tools by all compilers to break down a large code into manageable pieces. Utilizing ML and BB analysis together can enable scalable hardware-software co-design beyond the current state of the art. In this work, we extrapolate the basic block execution counts of GPU applications for large inputs sizes from the counts of smaller input sizes of the same application. We employ two ML models, a Poisson Neural Network (PNN) and a Bayesian Regularization Backpropagation Neural Network (BR-BPNN). We train both models using the lowest input values of the application and random input values to predict basic block counts. Results show that our models accurately predict the basic block execution counts of 16 benchmark applications. For PNN and BR-BPNN models, we achieve an average accuracy of 93.5% and 95.6%, respectively, while extrapolating the basic block counts for large input sets when the model is trained using smaller input sets. Additionally, the models show an average accuracy of 97.7% and 98.1%, respectively, while predicting basic block counts on random instances.
Abstract（参考訳）: 近年では、主に粗いレベルで、大規模アプリケーションのパフォーマンスを予測するために機械学習(ml)技術が採用されている。対照的に、我々はML技術を用いてパフォーマンス予測をはるかにきめ細かな粒度で行うことを提案し、すなわち、すべてのコンパイラが分析ツールとして使用する単一のエントリ単一出口コードブロックであるベーシックブロック(BB)のレベルにおいて、大きなコードを管理可能なピースに分解する。 mlとbb分析を組み合わせることで、現在の技術を超えたスケーラブルなハードウェアとソフトウェアの共同設計が可能になる。本稿では、gpuアプリケーションの基本ブロック実行数を、同じアプリケーションのより小さな入力サイズの数から、大きな入力サイズに推定する。我々は、Poisson Neural Network(PNN)とBayesian Regularization Backpropagation Neural Network(BR-BPNN)の2つのMLモデルを採用する。基本ブロック数を予測するために,アプリケーションの最下位入力値とランダム入力値を用いて両方のモデルを訓練する。その結果,16種類のベンチマークアプリケーションのブロック実行回数を正確に予測できた。 PNNモデルとBR-BPNNモデルでは、それぞれ93.5%と95.6%の平均精度を達成し、モデルがより小さな入力セットを用いてトレーニングされた場合、大きな入力セットに対する基本ブロック数を外挿する。さらに、モデルはそれぞれ97.7%と98.1%の精度を示し、ランダムなインスタンスの基本的なブロック数を予測する。

関連論文リスト

Compute-Optimal Scaling for Value-Based Deep RL [99.680827753493]
オンライン価値ベースディープRLの計算スケーリングについて検討する。解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
論文参考訳（メタデータ） (2025-08-20T17:54:21Z)
DataDecide: How to Predict Best Pretraining Data with Small Experiments [67.95896457895404]
私たちはDataDecideのモデル、データ、評価を公開しています。最大100Bトークン,最大1Bパラメータのモデルサイズ,および3つのランダムシードを用いて,25コーパスにわたる事前学習実験を行った。
論文参考訳（メタデータ） (2025-04-15T17:02:15Z)
MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文参考訳（メタデータ） (2025-04-12T21:26:56Z)
Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。 SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文参考訳（メタデータ） (2025-02-06T18:59:47Z)
Understanding GEMM Performance and Energy on NVIDIA Ada Lovelace: A Machine Learning-Based Analytical Approach [0.8192907805418583]
本研究では、カスタム実装のタイル付き行列乗算カーネルとNVIDIAのCUTLASSライブラリの2つのアプローチを用いる。我々は多出力回帰機能を持つランダムフォレストに基づく予測モデルを開発した。我々のフレームワークは、実行時予測のR2スコアが0.98、電力予測の0.78で例外的精度を達成した。
論文参考訳（メタデータ） (2024-11-25T21:47:23Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Investigating Resource-efficient Neutron/Gamma Classification ML Models Targeting eFPGAs [0.0]
オープンソース組み込みFPGA(eFPGA)フレームワークは、ハードウェアに機械学習モデルを実装するための、代替的で柔軟な経路を提供する。完全連結ニューラルネットワーク(fcNN)と強化決定木(BDT)モデルのeFPGA実装のパラメータ空間について検討する。この研究結果は、テストチップの一部として統合されるeFPGAファブリックの仕様策定を支援するために使用される。
論文参考訳（メタデータ） (2024-04-19T20:03:30Z)
How predictable is language model benchmark performance? [0.07143413923310668]
平均ベンチマーク性能は、多くの個別タスクを集約し、計算スケールを訓練する機能として十分に予測可能であることを示す。個々のタスクのパフォーマンスは、偶然よりもはるかに予測可能である。
論文参考訳（メタデータ） (2024-01-09T17:34:30Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文参考訳（メタデータ） (2023-03-02T21:48:22Z)
A contextual analysis of multi-layer perceptron models in classifying hand-written digits and letters: limited resources [0.0]
我々は,前処理や特徴抽出を行わずに,終端から終端までのバニラニューラルネットワーク(MLP)アプローチを純粋に検証した。基礎的なデータマイニング操作は,計算時間の観点からモデルの性能を著しく向上させることができることを示す。
論文参考訳（メタデータ） (2021-07-05T04:30:37Z)
Semiring Primitives for Sparse Neighborhood Methods on the GPU [16.56995698312561]
スパース半環プリミティブは、幅広い臨界距離測度をサポートするのに十分な柔軟性を持つことができる。このプリミティブは、多くの近隣情報検索と機械学習アルゴリズムがスパース入力を受け付けるための基礎的なコンポーネントである。
論文参考訳（メタデータ） (2021-04-13T17:05:03Z)
Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文参考訳（メタデータ） (2020-09-15T01:59:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。