Fugu-MT 論文翻訳(概要): MLKAPS: Machine Learning and Adaptive Sampling for HPC Kernel Auto-tuning

論文の概要: MLKAPS: Machine Learning and Adaptive Sampling for HPC Kernel Auto-tuning

arxiv url: http://arxiv.org/abs/2501.05811v1
Date: Fri, 10 Jan 2025 09:27:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.18452
Title: MLKAPS: Machine Learning and Adaptive Sampling for HPC Kernel Auto-tuning
Title（参考訳）: MLKAPS:HPCカーネル自動チューニングのための機械学習と適応サンプリング
Authors: Mathys Jam, Eric Petit, Pablo de Oliveira Castro, David Defour, Greg Henry, William Jalby,
Abstract要約: MLKAPSは、HPCカーネルの設計パラメータをチューニングして、ユーザの入力に対して効率的なパフォーマンスを実現する決定木を生成する。大規模な入力と設計スペースにスケールし、チューニング時間と平均スピードアップにおいて、同様の最先端の自動チューニングツールよりも優れています。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many High-Performance Computing (HPC) libraries rely on decision trees to select the best kernel hyperparameters at runtime,depending on the input and environment. However, finding optimized configurations for each input and environment is challengingand requires significant manual effort and computational resources. This paper presents MLKAPS, a tool that automates this task usingmachine learning and adaptive sampling techniques. MLKAPS generates decision trees that tune HPC kernels' design parameters toachieve efficient performance for any user input. MLKAPS scales to large input and design spaces, outperforming similar state-of-the-artauto-tuning tools in tuning time and mean speedup. We demonstrate the benefits of MLKAPS on the highly optimized Intel MKLdgetrf LU kernel and show that MLKAPS finds blindspots in the manual tuning of HPC experts. It improves over 85% of the inputswith a geomean speedup of x1.30. On the Intel MKL dgeqrf QR kernel, MLKAPS improves performance on 85% of the inputs with ageomean speedup of x1.18.
Abstract（参考訳）: 多くのハイパフォーマンスコンピューティング(HPC)ライブラリは、入力と環境に依存して、実行時に最適なカーネルハイパーパラメータを選択するために決定木に依存している。しかし、各入力と環境に最適化された構成を見つけることは困難であり、かなりの手作業と計算資源を必要とする。本稿では,機械学習と適応サンプリング技術を用いて,このタスクを自動化するMLKAPSを提案する。 MLKAPSは、HPCカーネルの設計パラメータを調整した決定木を生成する。 MLKAPSは大きな入力空間と設計空間にスケールし、チューニング時間と平均スピードアップにおいて、同様の最先端のチューニングツールより優れている。高度に最適化されたIntel MKLdgetrf LUカーネル上でのMLKAPSの利点を実証し、HPCエキスパートの手動チューニングにおいてMLKAPSが盲点を見つけることを示す。ジオ平均速度はx1.30で、入力の85%以上改善されている。 Intel MKL dgeqrf QRカーネルでは、MLKAPSは入力の85%で性能を向上し、老化速度はx1.18である。

関連論文リスト

Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive [58.0729162588429]
インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
論文参考訳（メタデータ） (2025-07-13T12:33:37Z)
Pruning-Based TinyML Optimization of Machine Learning Models for Anomaly Detection in Electric Vehicle Charging Infrastructure [8.29566258132752]
本稿では,EVCIを対象とする資源制約環境における異常検出のためのプルーニング手法について検討する。最適化されたモデルは、モデルのサイズと推論時間の大幅な削減を実現しました。特に,EVCIでは,プルーニングとFSが重要な異常検出能力を保ちながら,計算効率を向上させることが示唆された。
論文参考訳（メタデータ） (2025-03-19T00:18:37Z)
ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。 ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文参考訳（メタデータ） (2025-03-08T07:03:43Z)
Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。 GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文参考訳（メタデータ） (2024-12-24T02:27:44Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Parameter Optimization with Conscious Allocation (POCA) [4.478575931884855]
ハイパーバンドベースの機械学習アプローチが最も効果的である。私たちは出席します。新人 Conscious Allocation (POCA) は、入力を適応的に割り当てるハイパーバンドベースのアルゴリズムである。ハイパーパラメータの構成に予算を割り当てます POCAは、両方の設定で強い設定を高速に見つける。
論文参考訳（メタデータ） (2023-12-29T00:13:55Z)
Tune As You Scale: Hyperparameter Optimization For Compute Efficient Training [0.0]
そこで本研究では,大規模モデルのロバストなチューニング手法を提案する。 CarBSはパフォーマンスコストフロンティアの周辺でローカル検索を行う。その結果、単純なベースラインをチューニングするだけで、ProcGenベンチマーク全体を効果的に解決できることがわかった。
論文参考訳（メタデータ） (2023-06-13T18:22:24Z)
Optimizing Sparse Linear Algebra Through Automatic Format Selection and Machine Learning [0.0]
Morpheus-Oracleは軽量なMLオートチューニングを提供するライブラリで、複数のバックエンドで最適なフォーマットを正確に予測できる。平均分類精度は92.63%と80.22%である。
論文参考訳（メタデータ） (2023-03-09T08:17:26Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文参考訳（メタデータ） (2022-05-09T22:48:39Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
A Full-stack Accelerator Search Technique for Vision Applications [11.932331630567512]
本稿では,幅広い最適化環境を定義するハードウェアアクセラレーター検索フレームワークを提案する。 FASTは、どんな数やタイプのディープラーニングのワークロードでも使用できる。単一のワークロードに最適化されたFASTによって生成された設計は、ベストケースではPerf/TDPを6倍改善することができる。限定的なワークロードサブセットでは、FASTはPerf/TDP 2.85xを平均で改善し、ワークロードセットに最適化された単一の設計に対して2.35xに削減する。
論文参考訳（メタデータ） (2021-05-26T21:10:20Z)
PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文参考訳（メタデータ） (2020-02-06T08:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。