論文の概要: LS-CAT: A Large-Scale CUDA AutoTuning Dataset
- arxiv url: http://arxiv.org/abs/2103.14409v1
- Date: Fri, 26 Mar 2021 11:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:36:11.662503
- Title: LS-CAT: A Large-Scale CUDA AutoTuning Dataset
- Title(参考訳): LS-CAT: 大規模CUDAオートチューニングデータセット
- Authors: Lars Bjertnes, Jacob O. T{\o}rring, Anne C. Elster
- Abstract要約: GitHubからLS-CAT(Large-Scale AutoTuning)データセットの構築方法を紹介します。
私たちのデータセットは、線形代数に焦点を当てた19 683カーネルを含む。
ランタイムはNvidia GTX 980とNvidia T4システムのGPUベンチマークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effectiveness of Machine Learning (ML) methods depend on access to large
suitable datasets. In this article, we present how we build the LS-CAT
(Large-Scale CUDA AutoTuning) dataset sourced from GitHub for the purpose of
training NLP-based ML models. Our dataset includes 19 683 CUDA kernels focused
on linear algebra. In addition to the CUDA codes, our LS-CAT dataset contains 5
028 536 associated runtimes, with different combinations of kernels, block
sizes and matrix sizes. The runtime are GPU benchmarks on both Nvidia GTX 980
and Nvidia T4 systems. This information creates a foundation upon which
NLP-based models can find correlations between source-code features and optimal
choice of thread block sizes.
There are several results that can be drawn out of our LS-CAT database. E.g.,
our experimental results show that an optimal choice in thread block size can
gain an average of 6% for the average case. We thus also analyze how much
performance increase can be achieved in general, finding that in 10% of the
cases more than 20% performance increase can be achieved by using the optimal
block. A description of current and future work is also included.
- Abstract(参考訳): 機械学習(ML)手法の有効性は、大きな適切なデータセットへのアクセスに依存する。
本稿では、NLPベースのMLモデルのトレーニングを目的とした、GitHubからソースされたLS-CAT(Large-Scale CUDA AutoTuning)データセットの構築方法について紹介する。
我々のデータセットには線形代数に焦点を当てた683 CUDAカーネルが19個含まれている。
当社のLS-CATデータセットには,CUDAコードに加えて,カーネル,ブロックサイズ,マトリックスサイズなど,5つの028 536関連ランタイムが含まれている。
ランタイムはNvidia GTX 980とNvidia T4システムのGPUベンチマークである。
この情報は、NLPベースのモデルがソースコードの特徴とスレッドブロックサイズを最適に選択することの間の相関を見出す基盤となる。
LS-CATデータベースから得られるいくつかの結果があります。
例えば, 実験結果から, スレッドブロックサイズを最適に選択すると, 平均ケースの平均6%が得られることがわかった。
また, 性能向上の程度を解析した結果, 最適ブロックを用いることで, 性能向上の10%以上を達成できることがわかった。
また、現在および今後の作品の記述も含んでいる。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs [3.7101665559244874]
本稿では,Intel Data Center GPU Max 1550用のMulti-formedLayer Perceptrons(MLP)の実装について述べる。
これにより算術強度が大幅に向上し,特に推論性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-26T11:38:39Z) - SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。
また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。
近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文 参考訳(メタデータ) (2024-03-25T15:26:50Z) - CUDA: Convolution-based Unlearnable Datasets [77.70422525613084]
現代のディープラーニングモデルの大規模なトレーニングは、Web上の公開データに大きく依存している。
最近の研究は、小さくて特殊なノイズを加えることによって、ディープラーニングモデルのためのデータを作ることを目的としている。
これらの手法は、敵の訓練(AT)に対して脆弱であり、または/または計算的に重い。
論文 参考訳(メタデータ) (2023-03-07T22:57:23Z) - BB-ML: Basic Block Performance Prediction using Machine Learning
Techniques [0.6020800302423842]
我々は,機械学習(ML)技術を用いて,より微細な粒度,すなわちBasic Block(BB)レベルでの性能予測を行う。
我々は、GPUアプリケーションの基本的なブロック実行数を外挿し、より小さな入力サイズの数から大きな入力サイズのパフォーマンスを予測するためにそれらを使用する。
我々は、より小さな入力セットでトレーニングした場合に、大きな入力セットに対する基本ブロック数を外挿する精度93.5%を達成する。
論文 参考訳(メタデータ) (2022-02-16T00:19:15Z) - Accelerating Genetic Programming using GPUs [0.0]
遺伝的プログラミング(GP)は、曲線フィッティング、データモデリング、特徴選択、分類など、機械学習に複数の応用がある。
本稿では,代用GPアルゴリズムのGPUアクセラレーションスタックに基づく変種について述べる。
論文 参考訳(メタデータ) (2021-10-15T06:13:01Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - OSLNet: Deep Small-Sample Classification with an Orthogonal Softmax
Layer [77.90012156266324]
本稿では,ニューラルネットワークのサブスペースを見つけることを目的としている。
そこで本研究では,Orthogonal Softmax Layer (OSL) を提案する。
実験結果から,提案OSLは4つの小サンプルベンチマークデータセットとの比較に用いた手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-04-20T02:41:01Z) - Omni-Scale CNNs: a simple and effective kernel size configuration for
time series classification [47.423272376757204]
時系列分類タスクにおける1次元畳み込みニューラルネットワーク(1D-CNN)において、受容場(RF)サイズは最も重要な要素の1つである。
1D-CNNのためのOmni-Scale Block (OS-block)を提案する。
実験の結果,OSブロックを持つモデルでは,探索された最適なRFサイズを持つモデルと同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-24T03:33:58Z) - MOGPTK: The Multi-Output Gaussian Process Toolkit [71.08576457371433]
ガウス過程(GP)を用いたマルチチャネルデータモデリングのためのPythonパッケージMOGPTKを提案する。
このツールキットの目的は、研究者、データサイエンティスト、実践者にもMOGP(multi-output GP)モデルを利用できるようにすることである。
論文 参考訳(メタデータ) (2020-02-09T23:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。