Fugu-MT 論文翻訳(概要): Performance portability through machine learning guided kernel selection in SYCL libraries

論文の概要: Performance portability through machine learning guided kernel selection in SYCL libraries

arxiv url: http://arxiv.org/abs/2008.13145v1
Date: Sun, 30 Aug 2020 11:44:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-23 12:35:59.789497
Title: Performance portability through machine learning guided kernel selection in SYCL libraries
Title（参考訳）: SYCLライブラリにおける機械学習によるカーネル選択によるパフォーマンスポータビリティ
Authors: John Lawson
Abstract要約: 汎用計算ライブラリは、ユーザが提供するすべての入力とパラメータに対応できなければならない。機械学習の手法は、どちらの問題にも対処できる。新しいハードウェアや問題のためにプロセスをチューニングしても、開発者の努力や専門知識は必要ない。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatically tuning parallel compute kernels allows libraries and frameworks to achieve performance on a wide range of hardware, however these techniques are typically focused on finding optimal kernel parameters for particular input sizes and parameters. General purpose compute libraries must be able to cater to all inputs and parameters provided by a user, and so these techniques are of limited use. Additionally, parallel programming frameworks such as SYCL require that the kernels be deployed in a binary format embedded within the library. As such it is impractical to deploy a large number of possible kernel configurations without inflating the library size. Machine learning methods can be used to mitigate against both of these problems and provide performance for general purpose routines with a limited number of kernel configurations. We show that unsupervised clustering methods can be used to select a subset of the possible kernels that should be deployed and that simple classification methods can be trained to select from these kernels at runtime to give good performance. As these techniques are fully automated, relying only on benchmark data, the tuning process for new hardware or problems does not require any developer effort or expertise.
Abstract（参考訳）: 並列計算カーネルの自動チューニングにより、ライブラリやフレームワークは幅広いハードウェアでパフォーマンスを実現することができるが、これらの技術は通常、特定の入力サイズやパラメータに対する最適なカーネルパラメータを見つけることに焦点を当てている。汎用計算ライブラリは,ユーザが提供するすべての入力やパラメータに対応できなければならない。さらに、SYCLのような並列プログラミングフレームワークは、カーネルをライブラリ内に埋め込まれたバイナリフォーマットにデプロイする必要がある。そのため、ライブラリのサイズを膨らませることなく、多数のカーネル構成をデプロイするのは現実的ではない。機械学習手法は、これらの問題の両方に対処し、カーネル構成に制限のある汎用ルーチンのパフォーマンスを提供するために使用することができる。アン教師なしクラスタリング手法は、デプロイすべきカーネルのサブセットを選択するために使用することができ、単純な分類法は、実行時にこれらのカーネルから選択して、優れたパフォーマンスを提供するように訓練できることを示す。これらの技術は完全に自動化されており、ベンチマークデータのみに依存しているため、新しいハードウェアや問題のチューニングプロセスは開発者の努力や専門知識を必要としない。

関連論文リスト

A Dictionary of Closed-Form Kernel Mean Embeddings [48.67713382782237]
我々は、既知のカーネルの平均埋め込みの包括的な辞書と、既知のカーネルから新しい埋め込みを導出するための実用的なツールを提供する。また、埋め込みの最小限の実装を含むPythonライブラリも提供しています。
論文参考訳（メタデータ） (2025-04-26T07:33:30Z)
NNTile: a machine learning framework capable of training extremely large GPT language models on a single node [83.9328245724548]
NNTileはタスクベースの並列処理を実装したStarPUライブラリをベースとしている。これは、大きなニューラルネットワークをトレーニングするために必要な特定の操作が、CPUコアまたはGPUデバイスのいずれかで実行されることを意味する。
論文参考訳（メタデータ） (2025-04-17T16:22:32Z)
Amortized Inference for Gaussian Process Hyperparameters of Structured Kernels [5.1672267755831705]
異なるデータセットに対するパラメータ推論の補正は、トレーニング時間を劇的に高速化するための有望なアプローチである。本稿では,固定化されたカーネル構造ではなく,完全なカーネル構造ファミリ上でのカーネルパラメータのアモータイズを提案する。大規模なカーネルとデータセットの競合テスト性能と合わせて,推論時間を大幅に短縮することを示す。
論文参考訳（メタデータ） (2023-06-16T13:02:57Z)
AutoCoreset: An Automatic Practical Coreset Construction Framework [65.37876706107764]
コアセットは入力セットの小さな重み付き部分集合であり、損失関数によく似ている。本稿では,ユーザからの入力データと所望のコスト関数のみを必要とするコアセット構築のための自動フレームワークを提案する。この集合は有限であるが、コア集合は極めて一般であることを示す。
論文参考訳（メタデータ） (2023-05-19T19:59:52Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
BioSequence2Vec: Efficient Embedding Generation For Biological Sequences [1.0896567381206714]
本稿では,カーネルメソッドの品質を具現化する汎用表現学習手法を提案する。提案手法は,任意の距離への入力として利用することができる。我々はSARS-CoV-2系統や遺伝子ファミリー分類などの実世界の様々な分類タスクを行い、予測性能において最先端の埋め込みやカーネル手法よりも優れています。
論文参考訳（メタデータ） (2023-04-01T10:58:21Z)
Local Sample-weighted Multiple Kernel Clustering with Consensus Discriminative Graph [73.68184322526338]
マルチカーネルクラスタリング(MKC)は、ベースカーネルの集合から最適な情報融合を実現するためにコミットされる。本稿では,新しい局所サンプル重み付きマルチカーネルクラスタリングモデルを提案する。実験により, LSWMKCはより優れた局所多様体表現を有し, 既存のカーネルやグラフベースのクラスタリングアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2022-07-05T05:00:38Z)
Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文参考訳（メタデータ） (2022-05-09T22:48:39Z)
Source Code Classification for Energy Efficiency in Parallel Ultra Low-Power Microcontrollers [5.4352987210173955]
本稿では,ソフトウェアツールチェーンの知性を向上し,最新のアーキテクチャを最大限に活用することを目的とする。低電力の並列組込みアーキテクチャの場合、これは、例えばコア数の観点から構成を見つけることを意味し、最小限のエネルギー消費につながる。実験によれば、ソースコード上で機械学習モデルを使用して最適なエネルギースケーリング構成を自動的に選択することは可能であり、エネルギー最小化のための自動システム構成のコンテキストで使用できる可能性がある。
論文参考訳（メタデータ） (2020-12-12T15:12:03Z)
Towards automated kernel selection in machine learning systems: A SYCL case study [0.0]
本稿では,ライブラリに高性能なSYCLカーネルをデプロイするケーススタディにおいて,機械学習を用いてカーネルの選択を行う。自動チューニングと機械学習を組み合わせることで、これらのカーネル選択プロセスは、新しいハードウェアで高いパフォーマンスを達成するための開発者の努力をほとんど必要とせずにデプロイできる。
論文参考訳（メタデータ） (2020-03-15T11:23:36Z)
Learning Deep Kernels for Non-Parametric Two-Sample Tests [50.92621794426821]
2組のサンプルが同じ分布から引き出されるかどうかを判定するカーネルベースの2サンプルテストのクラスを提案する。私たちのテストは、テストパワーを最大化するためにトレーニングされたディープニューラルネットワークによってパラメータ化されたカーネルから構築されます。
論文参考訳（メタデータ） (2020-02-21T03:54:23Z)
PolyScientist: Automatic Loop Transformations Combined with Microkernels for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文参考訳（メタデータ） (2020-02-06T08:02:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。