論文の概要: Performance portability through machine learning guided kernel selection
in SYCL libraries
- arxiv url: http://arxiv.org/abs/2008.13145v1
- Date: Sun, 30 Aug 2020 11:44:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 12:35:59.789497
- Title: Performance portability through machine learning guided kernel selection
in SYCL libraries
- Title(参考訳): SYCLライブラリにおける機械学習によるカーネル選択によるパフォーマンスポータビリティ
- Authors: John Lawson
- Abstract要約: 汎用計算ライブラリは、ユーザが提供するすべての入力とパラメータに対応できなければならない。
機械学習の手法は、どちらの問題にも対処できる。
新しいハードウェアや問題のためにプロセスをチューニングしても、開発者の努力や専門知識は必要ない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically tuning parallel compute kernels allows libraries and frameworks
to achieve performance on a wide range of hardware, however these techniques
are typically focused on finding optimal kernel parameters for particular input
sizes and parameters. General purpose compute libraries must be able to cater
to all inputs and parameters provided by a user, and so these techniques are of
limited use. Additionally, parallel programming frameworks such as SYCL require
that the kernels be deployed in a binary format embedded within the library. As
such it is impractical to deploy a large number of possible kernel
configurations without inflating the library size.
Machine learning methods can be used to mitigate against both of these
problems and provide performance for general purpose routines with a limited
number of kernel configurations. We show that unsupervised clustering methods
can be used to select a subset of the possible kernels that should be deployed
and that simple classification methods can be trained to select from these
kernels at runtime to give good performance. As these techniques are fully
automated, relying only on benchmark data, the tuning process for new hardware
or problems does not require any developer effort or expertise.
- Abstract(参考訳): 並列計算カーネルの自動チューニングにより、ライブラリやフレームワークは幅広いハードウェアでパフォーマンスを実現することができるが、これらの技術は通常、特定の入力サイズやパラメータに対する最適なカーネルパラメータを見つけることに焦点を当てている。
汎用計算ライブラリは,ユーザが提供するすべての入力やパラメータに対応できなければならない。
さらに、SYCLのような並列プログラミングフレームワークは、カーネルをライブラリ内に埋め込まれたバイナリフォーマットにデプロイする必要がある。
そのため、ライブラリのサイズを膨らませることなく、多数のカーネル構成をデプロイするのは現実的ではない。
機械学習手法は、これらの問題の両方に対処し、カーネル構成に制限のある汎用ルーチンのパフォーマンスを提供するために使用することができる。
アン教師なしクラスタリング手法は、デプロイすべきカーネルのサブセットを選択するために使用することができ、単純な分類法は、実行時にこれらのカーネルから選択して、優れたパフォーマンスを提供するように訓練できることを示す。
これらの技術は完全に自動化されており、ベンチマークデータのみに依存しているため、新しいハードウェアや問題のチューニングプロセスは開発者の努力や専門知識を必要としない。
関連論文リスト
- Amortized Inference for Gaussian Process Hyperparameters of Structured
Kernels [5.1672267755831705]
異なるデータセットに対するパラメータ推論の補正は、トレーニング時間を劇的に高速化するための有望なアプローチである。
本稿では,固定化されたカーネル構造ではなく,完全なカーネル構造ファミリ上でのカーネルパラメータのアモータイズを提案する。
大規模なカーネルとデータセットの競合テスト性能と合わせて,推論時間を大幅に短縮することを示す。
論文 参考訳(メタデータ) (2023-06-16T13:02:57Z) - AutoCoreset: An Automatic Practical Coreset Construction Framework [65.37876706107764]
コアセットは入力セットの小さな重み付き部分集合であり、損失関数によく似ている。
本稿では,ユーザからの入力データと所望のコスト関数のみを必要とするコアセット構築のための自動フレームワークを提案する。
この集合は有限であるが、コア集合は極めて一般であることを示す。
論文 参考訳(メタデータ) (2023-05-19T19:59:52Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - BioSequence2Vec: Efficient Embedding Generation For Biological Sequences [1.0896567381206714]
本稿では,カーネルメソッドの品質を具現化する汎用表現学習手法を提案する。
提案手法は,任意の距離への入力として利用することができる。
我々はSARS-CoV-2系統や遺伝子ファミリー分類などの実世界の様々な分類タスクを行い、予測性能において最先端の埋め込みやカーネル手法よりも優れています。
論文 参考訳(メタデータ) (2023-04-01T10:58:21Z) - Local Sample-weighted Multiple Kernel Clustering with Consensus
Discriminative Graph [73.68184322526338]
マルチカーネルクラスタリング(MKC)は、ベースカーネルの集合から最適な情報融合を実現するためにコミットされる。
本稿では,新しい局所サンプル重み付きマルチカーネルクラスタリングモデルを提案する。
実験により, LSWMKCはより優れた局所多様体表現を有し, 既存のカーネルやグラフベースのクラスタリングアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2022-07-05T05:00:38Z) - Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to
Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。
これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-09T22:48:39Z) - Source Code Classification for Energy Efficiency in Parallel Ultra
Low-Power Microcontrollers [5.4352987210173955]
本稿では,ソフトウェアツールチェーンの知性を向上し,最新のアーキテクチャを最大限に活用することを目的とする。
低電力の並列組込みアーキテクチャの場合、これは、例えばコア数の観点から構成を見つけることを意味し、最小限のエネルギー消費につながる。
実験によれば、ソースコード上で機械学習モデルを使用して最適なエネルギースケーリング構成を自動的に選択することは可能であり、エネルギー最小化のための自動システム構成のコンテキストで使用できる可能性がある。
論文 参考訳(メタデータ) (2020-12-12T15:12:03Z) - Towards automated kernel selection in machine learning systems: A SYCL
case study [0.0]
本稿では,ライブラリに高性能なSYCLカーネルをデプロイするケーススタディにおいて,機械学習を用いてカーネルの選択を行う。
自動チューニングと機械学習を組み合わせることで、これらのカーネル選択プロセスは、新しいハードウェアで高いパフォーマンスを達成するための開発者の努力をほとんど必要とせずにデプロイできる。
論文 参考訳(メタデータ) (2020-03-15T11:23:36Z) - Learning Deep Kernels for Non-Parametric Two-Sample Tests [50.92621794426821]
2組のサンプルが同じ分布から引き出されるかどうかを判定するカーネルベースの2サンプルテストのクラスを提案する。
私たちのテストは、テストパワーを最大化するためにトレーニングされたディープニューラルネットワークによってパラメータ化されたカーネルから構築されます。
論文 参考訳(メタデータ) (2020-02-21T03:54:23Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。