論文の概要: Searching CUDA code autotuning spaces with hardware performance
counters: data from benchmarks running on various GPU architectures
- arxiv url: http://arxiv.org/abs/2102.05299v1
- Date: Wed, 10 Feb 2021 07:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:31:55.886961
- Title: Searching CUDA code autotuning spaces with hardware performance
counters: data from benchmarks running on various GPU architectures
- Title(参考訳): ハードウェアパフォーマンスカウンタによるCUDAコードオートチューニングスペースの検索:さまざまなGPUアーキテクチャ上で動作するベンチマークのデータ
- Authors: Ji\v{r}\'i Filipovi\v{c} and Jana Hozzov\'a and Amin Nezarat and
Jaroslav O\v{l}ha and Filip Petrovi\v{c}
- Abstract要約: 我々は,パフォーマンス関連ソースコードパラメータを考慮に入れたベンチマークを開発し,GPUアーキテクチャのピークに近い性能に到達した。
当社のフレームワークであるKernel Tuning Toolkitでは、複数のGPU上での時間とハードウェアパフォーマンスカウンタを測定し、5つのベンチマークの完全なチューニングスペースを測定しました。
本稿では,検索者に対するロバストな評価や,他者との比較に用いたスクリプトについて詳述する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We have developed several autotuning benchmarks in CUDA that take into
account performance-relevant source-code parameters and reach near
peak-performance on various GPU architectures. We have used them during the
development and evaluation of a novel search method for tuning space proposed
in [1]. With our framework Kernel Tuning Toolkit, freely available at Github,
we measured computation times and hardware performance counters on several GPUs
for the complete tuning spaces of five benchmarks. These data, which we provide
here, might benefit research of search algorithms for the tuning spaces of GPU
codes or research of relation between applied code optimization, hardware
performance counters, and GPU kernels' performance.
Moreover, we describe the scripts we used for robust evaluation of our
searcher and comparison to others in detail. In particular, the script that
simulates the tuning, i.e., replaces time-demanding compiling and executing the
tuned kernels with a quick reading of the computation time from our measured
data, makes it possible to inspect the convergence of tuning search over a
large number of experiments. These scripts, freely available with our other
codes, make it easier to experiment with search algorithms and compare them in
a robust way.
During our research, we generated models for predicting values of performance
counters from values of tuning parameters of our benchmarks. Here, we provide
the models themselves and describe the scripts we implemented for their
training. These data might benefit researchers who want to reproduce or build
on our research.
- Abstract(参考訳): 我々は,性能関連ソースコードパラメータを考慮し,GPUアーキテクチャ上でのピークに近い性能を実現する,CUDAのいくつかの自動チューニングベンチマークを開発した。
我々は, [1] で提案された空間のチューニングのための新しい探索法の開発と評価に使用した。
当社のフレームワークカーネルチューニングツールキットはgithubで無料で利用可能で、5つのベンチマークの完全なチューニングスペースのために、いくつかのgpuで計算時間とハードウェアパフォーマンスカウンタを測定しました。
ここで提供されるこれらのデータは、GPUコードのチューニング空間の探索アルゴリズムの研究や、適用コード最適化、ハードウェアパフォーマンスカウンタ、GPUカーネルのパフォーマンスの関係の研究に役立ちます。
さらに,検索者の頑健な評価や,他者との比較に用いたスクリプトについても詳細に述べる。
特に、チューニングをシミュレートするスクリプト、すなわち、チューニングされたカーネルのコンパイルと実行を、測定したデータから計算時間の迅速な読み出しによって置き換えることにより、多くの実験でチューニング検索の収束を検査することができる。
これらのスクリプトは他のコードと自由に利用できるため、検索アルゴリズムを実験し、堅牢な方法で比較しやすくなります。
本研究では,ベンチマークのチューニングパラメータの値からパフォーマンスカウンタの値を予測するモデルを作成した。
ここでは、モデル自体を提供し、トレーニング用に実装したスクリプトを記述します。
これらのデータは、私たちの研究を再現または構築したい研究者に役立ちます。
関連論文リスト
- Implementation and Analysis of GPU Algorithms for Vecchia Approximation [0.8057006406834466]
Vecchia Approximationは計算複雑性を減らすために広く使われており、恥ずかしい並列アルゴリズムで計算することができる。
Vecchia Approximationのためにマルチコアソフトウェアが開発されたが、グラフィックス処理ユニット(GPU)上で動作するように設計されたソフトウェアは不足している。
我々の新しい手法は他の2つより優れており、GpGpU Rパッケージに表示されます。
論文 参考訳(メタデータ) (2024-07-03T01:24:44Z) - SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。
また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。
近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文 参考訳(メタデータ) (2024-03-25T15:26:50Z) - Performance Tuning for GPU-Embedded Systems: Machine-Learning-based and
Analytical Model-driven Tuning Methodologies [0.0]
本研究は,分析モデル駆動型チューニング手法と機械学習(ML)に基づくチューニング手法を紹介する。
NVIDIA JetsonシステムにおけるBPLGライブラリの異なる並列プレフィックス実装のための2つのチューニング手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-10-24T22:09:03Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Using hardware performance counters to speed up autotuning convergence
on GPUs [0.0]
チューニング空間を探索する新しい手法を提案する。
この方法は、経験的チューニング中にハードウェアパフォーマンスカウンタを収集する。
提案手法は,アプリケーションが異なるハードウェアに移植される必要がある場合や,異なる特性を持つデータを処理する必要がある場合,自動チューニングを高速化できることを実験的に実証する。
論文 参考訳(メタデータ) (2021-02-10T07:42:39Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。