論文の概要: MLKAPS: Machine Learning and Adaptive Sampling for HPC Kernel Auto-tuning
- arxiv url: http://arxiv.org/abs/2501.05811v1
- Date: Fri, 10 Jan 2025 09:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:48.904979
- Title: MLKAPS: Machine Learning and Adaptive Sampling for HPC Kernel Auto-tuning
- Title(参考訳): MLKAPS:HPCカーネル自動チューニングのための機械学習と適応サンプリング
- Authors: Mathys Jam, Eric Petit, Pablo de Oliveira Castro, David Defour, Greg Henry, William Jalby,
- Abstract要約: MLKAPSは、HPCカーネルの設計パラメータをチューニングして、ユーザの入力に対して効率的なパフォーマンスを実現する決定木を生成する。
大規模な入力と設計スペースにスケールし、チューニング時間と平均スピードアップにおいて、同様の最先端の自動チューニングツールよりも優れています。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Many High-Performance Computing (HPC) libraries rely on decision trees to select the best kernel hyperparameters at runtime,depending on the input and environment. However, finding optimized configurations for each input and environment is challengingand requires significant manual effort and computational resources. This paper presents MLKAPS, a tool that automates this task usingmachine learning and adaptive sampling techniques. MLKAPS generates decision trees that tune HPC kernels' design parameters toachieve efficient performance for any user input. MLKAPS scales to large input and design spaces, outperforming similar state-of-the-artauto-tuning tools in tuning time and mean speedup. We demonstrate the benefits of MLKAPS on the highly optimized Intel MKLdgetrf LU kernel and show that MLKAPS finds blindspots in the manual tuning of HPC experts. It improves over 85% of the inputswith a geomean speedup of x1.30. On the Intel MKL dgeqrf QR kernel, MLKAPS improves performance on 85% of the inputs with ageomean speedup of x1.18.
- Abstract(参考訳): 多くのハイパフォーマンスコンピューティング(HPC)ライブラリは、入力と環境に依存して、実行時に最適なカーネルハイパーパラメータを選択するために決定木に依存している。
しかし、各入力と環境に最適化された構成を見つけることは困難であり、かなりの手作業と計算資源を必要とする。
本稿では,機械学習と適応サンプリング技術を用いて,このタスクを自動化するMLKAPSを提案する。
MLKAPSは、HPCカーネルの設計パラメータを調整した決定木を生成する。
MLKAPSは大きな入力空間と設計空間にスケールし、チューニング時間と平均スピードアップにおいて、同様の最先端のチューニングツールより優れている。
高度に最適化されたIntel MKLdgetrf LUカーネル上でのMLKAPSの利点を実証し、HPCエキスパートの手動チューニングにおいてMLKAPSが盲点を見つけることを示す。
ジオ平均速度はx1.30で、入力の85%以上改善されている。
Intel MKL dgeqrf QRカーネルでは、MLKAPSは入力の85%で性能を向上し、老化速度はx1.18である。
関連論文リスト
- Introducing MAPO: Momentum-Aided Gradient Descent Prompt Optimization [1.660242118349614]
ProTeGi上に構築されたMAPOは、肯定的な自然言語「段階的」と運動量に基づく拡張を使用して、プロンプトを効果的に洗練する。
MAPOは、ProTeGiよりも少ないAPI呼び出しと高いF1スコアで、より速い収束時間を達成する。
論文 参考訳(メタデータ) (2024-10-25T11:58:12Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Parameter Optimization with Conscious Allocation (POCA) [4.478575931884855]
ハイパーバンドベースの機械学習アプローチが最も効果的である。
私たちは出席します。
新人
Conscious Allocation (POCA) は、入力を適応的に割り当てるハイパーバンドベースのアルゴリズムである。
ハイパーパラメータの構成に予算を割り当てます
POCAは、両方の設定で強い設定を高速に見つける。
論文 参考訳(メタデータ) (2023-12-29T00:13:55Z) - Tune As You Scale: Hyperparameter Optimization For Compute Efficient
Training [0.0]
そこで本研究では,大規模モデルのロバストなチューニング手法を提案する。
CarBSはパフォーマンスコストフロンティアの周辺でローカル検索を行う。
その結果、単純なベースラインをチューニングするだけで、ProcGenベンチマーク全体を効果的に解決できることがわかった。
論文 参考訳(メタデータ) (2023-06-13T18:22:24Z) - Optimizing Sparse Linear Algebra Through Automatic Format Selection and
Machine Learning [0.0]
Morpheus-Oracleは軽量なMLオートチューニングを提供するライブラリで、複数のバックエンドで最適なフォーマットを正確に予測できる。
平均分類精度は92.63%と80.22%である。
論文 参考訳(メタデータ) (2023-03-09T08:17:26Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to
Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。
これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-09T22:48:39Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - A Full-stack Accelerator Search Technique for Vision Applications [11.932331630567512]
本稿では,幅広い最適化環境を定義するハードウェアアクセラレーター検索フレームワークを提案する。
FASTは、どんな数やタイプのディープラーニングのワークロードでも使用できる。
単一のワークロードに最適化されたFASTによって生成された設計は、ベストケースではPerf/TDPを6倍改善することができる。
限定的なワークロードサブセットでは、FASTはPerf/TDP 2.85xを平均で改善し、ワークロードセットに最適化された単一の設計に対して2.35xに削減する。
論文 参考訳(メタデータ) (2021-05-26T21:10:20Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。