論文の概要: Machine Learning for CUDA+MPI Design Rules
- arxiv url: http://arxiv.org/abs/2203.02530v1
- Date: Fri, 4 Mar 2022 19:17:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 18:42:19.233281
- Title: Machine Learning for CUDA+MPI Design Rules
- Title(参考訳): CUDA+MPI設計規則のための機械学習
- Authors: Carl Pearson, Aurya Javeed, Karen Devine
- Abstract要約: 本稿では,キー+MPIプログラムの設計空間を自動探索する新しい戦略を提案する。
モンテカルロ木探索は、プログラムの性能に大きな影響を与えるデザイン空間の領域を発見する。
決定木は、各クラスの設計ルールを作成するために、機能とラベルに基づいて訓練される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new strategy for automatically exploring the design space of key
CUDA+MPI programs and providing design rules that discriminate slow from fast
implementations. In such programs, the order of operations (e.g., GPU kernels,
MPI communication) and assignment of operations to resources (e.g., GPU
streams) makes the space of possible designs enormous. Systems experts have the
task of redesigning and reoptimizing these programs to effectively utilize each
new platform. This work provides a prototype tool to reduce that burden.
In our approach, a directed acyclic graph of CUDA and MPI operations defines
the design space for the program. Monte-Carlo tree search discovers regions of
the design space that have large impact on the program's performance. A
sequence-to-vector transformation defines features for each explored
implementation, and each implementation is assigned a class label according to
its relative performance. A decision tree is trained on the features and labels
to produce design rules for each class; these rules can be used by systems
experts to guide their implementations. We demonstrate our strategy using a key
kernel from scientific computing -- sparse-matrix vector multiplication -- on a
platform with multiple MPI ranks and GPU streams.
- Abstract(参考訳): 本稿では,鍵となるCUDA+MPIプログラムの設計空間を自動探索し,高速な実装から遅延を識別する設計規則を提案する。
そのようなプログラムでは、オペレーションの順序(例えば、gpuカーネル、mpi通信)とリソースへのオペレーションの割り当て(例えば、gpuストリーム)は、可能な設計の範囲を大きくします。
システムの専門家は、これらのプログラムを再設計し、再最適化し、新しいプラットフォームを効果的に利用するタスクを持つ。
この作業は、その負担を軽減するためのプロトタイプツールを提供する。
提案手法では,CUDA および MPI 操作の有向非巡回グラフがプログラムの設計空間を定義する。
モンテカルロ木探索は、プログラムの性能に大きな影響を与えるデザイン空間の領域を発見する。
sequence-to-vector変換(sequence-to-vector transformation)は、各実装の機能を定義し、各実装は相対的なパフォーマンスに応じてクラスラベルを割り当てる。
決定木は各クラスの設計ルールを作成するために特徴とラベルに基づいて訓練されます。これらのルールはシステムの専門家が実装をガイドするために使用できます。
複数のMPIランクとGPUストリームを備えたプラットフォーム上で、科学計算のキーカーネルであるスパース行列ベクトル乗算(sparse-matrix vector multiplication)を使用して、当社の戦略を実証する。
関連論文リスト
- Integrated Hardware Architecture and Device Placement Search [7.620610652090732]
ディープラーニングトレーニングの分散実行には、ハードウェアアクセラレータアーキテクチャとデバイス配置戦略との動的相互作用が含まれる。
これは、最適なアーキテクチャとデバイス配置戦略を決定するための協調最適化を探求する最初の試みである。
提案手法は,最先端のTPUv4とSpotlightアクセラレーター検索フレームワークと比較して,大規模言語モデルにおいて高いスループットを実現する。
論文 参考訳(メタデータ) (2024-07-18T04:02:35Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Machine Learning-Driven Adaptive OpenMP For Portable Performance on
Heterogeneous Systems [1.885335997132172]
プログラムを新しい異種プラットフォームに適応させるのは面倒で、開発者は手動で実行パラメータの広大なスペースを探索する必要がある。
本稿では,機械学習による自律的適応のためのOpenMPの拡張を提案する。
私たちのソリューションには、新しい言語構成、コンパイラ変換、ランタイムサポートのセットが含まれています。
論文 参考訳(メタデータ) (2023-03-15T18:37:18Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - A modular software framework for the design and implementation of
ptychography algorithms [55.41644538483948]
我々は,Pychographyデータセットをシミュレートし,最先端の再構築アルゴリズムをテストすることを目的とした,新しいptychographyソフトウェアフレームワークであるSciComを紹介する。
その単純さにもかかわらず、ソフトウェアはPyTorchインターフェースによる高速化処理を利用する。
結果は合成データと実データの両方で示される。
論文 参考訳(メタデータ) (2022-05-06T16:32:37Z) - A Deep Learning Inference Scheme Based on Pipelined Matrix
Multiplication Acceleration Design and Non-uniform Quantization [9.454905560571085]
本稿では,パイプライン行列乗算法と非一様量子化法に基づく低消費電力多層パーセプトロン(MLP)加速器を提案する。
その結果,本手法は少ない消費電力で優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-10T17:31:27Z) - Multiplierless MP-Kernel Machine For Energy-efficient Edge Devices [6.335302509003343]
マルチプライアレスカーネルマシンを設計するための新しいフレームワークを提案する。
このフレームワークは、マージン伝播(MP)技術に基づいて、ピースワイズ線形(PWL)近似を使用する。
本研究では,FPGA(Field Programmable Gate Array)プラットフォーム向けに最適化されたハードウェアフレンドリーなMPベースの推論とオンライントレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-03T16:06:08Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Predictive Coding Approximates Backprop along Arbitrary Computation
Graphs [68.8204255655161]
我々は、コア機械学習アーキテクチャを予測的符号化に翻訳する戦略を開発する。
私たちのモデルは、挑戦的な機械学習ベンチマークのバックプロップと同等に機能します。
本手法は,ニューラルネットワークに標準機械学習アルゴリズムを直接実装できる可能性を高める。
論文 参考訳(メタデータ) (2020-06-07T15:35:47Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。