論文の概要: Optimal Kernel Tuning Parameter Prediction using Deep Sequence Models
- arxiv url: http://arxiv.org/abs/2404.10162v1
- Date: Mon, 15 Apr 2024 22:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 18:41:41.613826
- Title: Optimal Kernel Tuning Parameter Prediction using Deep Sequence Models
- Title(参考訳): 深部系列モデルを用いた最適カーネルチューニングパラメータ予測
- Authors: Khawir Mahmood, Jehandad Khan, Hammad Afzal,
- Abstract要約: 本稿では,深部列列列モデルを用いて,計算カーネルを管理する最適チューニングパラメータを予測する手法を提案する。
提案アルゴリズムは、AMD機械学習プリミティブライブラリであるMIOpenにおいて、様々な畳み込みカーネル上で90%以上の精度を達成することができる。
- 参考スコア(独自算出の注目度): 0.44998333629984877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GPU kernels have come to the forefront of comput- ing due to their utility in varied fields, from high-performance computing to machine learning. A typical GPU compute kernel is invoked millions, if not billions of times in a typical application, which makes their performance highly critical. Due to the unknown nature of the optimization surface, an exhaustive search is required to discover the global optimum, which is infeasible due to the possible exponential number of parameter combinations. In this work, we propose a methodology that uses deep sequence- to-sequence models to predict the optimal tuning parameters governing compute kernels. This work considers the prediction of kernel parameters as a sequence to the sequence translation problem, borrowing models from the Natural Language Process- ing (NLP) domain. Parameters describing the input, output and weight tensors are considered as the input language to the model that emits the corresponding kernel parameters. In essence, the model translates the problem parameter language to kernel parameter language. The core contributions of this work are: a) Proposing that a sequence to sequence model can accurately learn the performance dynamics of a GPU compute kernel b) A novel network architecture which predicts the kernel tuning parameters for GPU kernels, c) A constrained beam search which incorporates the physical limits of the GPU hardware as well as other expert knowledge reducing the search space. The proposed algorithm can achieve more than 90% accuracy on various convolutional kernels in MIOpen, the AMD machine learning primitives library. As a result, the proposed technique can reduce the development time and compute resources required to tune unseen input configurations, resulting in shorter development cycles, reduced development costs, and better user experience.
- Abstract(参考訳): GPUカーネルは、ハイパフォーマンスコンピューティングから機械学習に至るまで、さまざまな分野において、計算処理の最先端にある。
典型的なGPU計算カーネルは、通常のアプリケーションでは何十億回も実行され、パフォーマンスが極めて重要になる。
最適化面の未知の性質のため、指数的なパラメータの組み合わせが考えられるため、大域的な最適解を見つけるには徹底的な探索が必要である。
本研究では,ディープシーケンス・トゥ・シーケンス・モデルを用いて,計算カーネルを管理する最適チューニングパラメータを予測する手法を提案する。
本研究では、NLP(Natural Language Process-ing)ドメインからモデルを借りて、カーネルパラメータの予測をシーケンス変換問題のシーケンスとして考える。
入力、出力、ウェイトテンソルを記述するパラメータは、対応するカーネルパラメータを出力するモデルへの入力言語として考慮される。
本質的に、モデルは問題パラメータ言語をカーネルパラメータ言語に変換する。
この仕事のコアコントリビューションは次のとおりです。
a) シーケンスモデルへのシーケンスがGPU計算カーネルのパフォーマンスダイナミクスを正確に学習できることを示すこと
b)GPUカーネルのカーネルチューニングパラメータを予測する新しいネットワークアーキテクチャ。
c)GPUハードウェアの物理的限界と、検索スペースを減らす他の専門家知識を組み込んだ制約されたビームサーチ。
提案アルゴリズムは、AMD機械学習プリミティブライブラリであるMIOpenにおいて、様々な畳み込みカーネル上で90%以上の精度を達成することができる。
その結果、提案手法は、未確認の入力構成を調整するために必要な開発時間と計算資源を削減し、開発サイクルを短縮し、開発コストを低減し、ユーザエクスペリエンスを向上させることができる。
関連論文リスト
- Explore as a Storm, Exploit as a Raindrop: On the Benefit of Fine-Tuning Kernel Schedulers with Coordinate Descent [48.791943145735]
カーネルの品質を向上しながら,Ansorの検索時間を短縮する可能性を示す。
このアプローチを、Ansorが生成した最初の300のカーネルに適用する。
この結果は20の有名なディープラーニングモデルで再現されている。
論文 参考訳(メタデータ) (2024-06-28T16:34:22Z) - SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。
また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。
近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文 参考訳(メタデータ) (2024-03-25T15:26:50Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Structural Kernel Search via Bayesian Optimization and Symbolical
Optimal Transport [5.1672267755831705]
ガウスのプロセスでは、カーネルの選択は重要なタスクであり、しばしば専門家が手動で行う。
本稿では,カーネル空間を包含する新しい効率的な探索法を提案する。
論文 参考訳(メタデータ) (2022-10-21T09:30:21Z) - FaDIn: Fast Discretized Inference for Hawkes Processes with General
Parametric Kernels [82.53569355337586]
この研究は、有限なサポートを持つ一般パラメトリックカーネルを用いた時間点プロセス推論の効率的な解を提供する。
脳磁図(MEG)により記録された脳信号からの刺激誘発パターンの発生をモデル化し,その有効性を評価する。
その結果,提案手法により,最先端技術よりもパターン遅延の推定精度が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-10T12:35:02Z) - Towards making the most of NLP-based device mapping optimization for
OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。
ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。
実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文 参考訳(メタデータ) (2022-08-30T10:20:55Z) - Kernel Identification Through Transformers [54.3795894579111]
カーネル選択はガウス過程(GP)モデルの性能決定において中心的な役割を果たす。
この研究は、高次元GP回帰モデルのためのカスタムカーネル関数を構築するという課題に対処する。
KITT: Kernel Identification through Transformersを提案する。
論文 参考訳(メタデータ) (2021-06-15T14:32:38Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - The Statistical Cost of Robust Kernel Hyperparameter Tuning [20.42751031392928]
対向雑音下での能動回帰の設定におけるカーネルハイパーパラメータチューニングの統計的複雑さについて検討した。
カーネルクラスの複雑性の増大がカーネルハイパーパラメータの学習の複雑さを増大させるのを特徴付け、この問題に対する有限サンプル保証を提供する。
論文 参考訳(メタデータ) (2020-06-14T21:56:33Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。