Fugu-MT 論文翻訳(概要): Machine Learning for CUDA+MPI Design Rules

論文の概要: Machine Learning for CUDA+MPI Design Rules

arxiv url: http://arxiv.org/abs/2203.02530v1
Date: Fri, 4 Mar 2022 19:17:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-08 18:42:19.233281
Title: Machine Learning for CUDA+MPI Design Rules
Title（参考訳）: CUDA+MPI設計規則のための機械学習
Authors: Carl Pearson, Aurya Javeed, Karen Devine
Abstract要約: 本稿では,キー+MPIプログラムの設計空間を自動探索する新しい戦略を提案する。モンテカルロ木探索は、プログラムの性能に大きな影響を与えるデザイン空間の領域を発見する。決定木は、各クラスの設計ルールを作成するために、機能とラベルに基づいて訓練される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a new strategy for automatically exploring the design space of key CUDA+MPI programs and providing design rules that discriminate slow from fast implementations. In such programs, the order of operations (e.g., GPU kernels, MPI communication) and assignment of operations to resources (e.g., GPU streams) makes the space of possible designs enormous. Systems experts have the task of redesigning and reoptimizing these programs to effectively utilize each new platform. This work provides a prototype tool to reduce that burden. In our approach, a directed acyclic graph of CUDA and MPI operations defines the design space for the program. Monte-Carlo tree search discovers regions of the design space that have large impact on the program's performance. A sequence-to-vector transformation defines features for each explored implementation, and each implementation is assigned a class label according to its relative performance. A decision tree is trained on the features and labels to produce design rules for each class; these rules can be used by systems experts to guide their implementations. We demonstrate our strategy using a key kernel from scientific computing -- sparse-matrix vector multiplication -- on a platform with multiple MPI ranks and GPU streams.
Abstract（参考訳）: 本稿では,鍵となるCUDA+MPIプログラムの設計空間を自動探索し,高速な実装から遅延を識別する設計規則を提案する。そのようなプログラムでは、オペレーションの順序(例えば、gpuカーネル、mpi通信)とリソースへのオペレーションの割り当て(例えば、gpuストリーム)は、可能な設計の範囲を大きくします。システムの専門家は、これらのプログラムを再設計し、再最適化し、新しいプラットフォームを効果的に利用するタスクを持つ。この作業は、その負担を軽減するためのプロトタイプツールを提供する。提案手法では,CUDA および MPI 操作の有向非巡回グラフがプログラムの設計空間を定義する。モンテカルロ木探索は、プログラムの性能に大きな影響を与えるデザイン空間の領域を発見する。 sequence-to-vector変換(sequence-to-vector transformation)は、各実装の機能を定義し、各実装は相対的なパフォーマンスに応じてクラスラベルを割り当てる。決定木は各クラスの設計ルールを作成するために特徴とラベルに基づいて訓練されます。これらのルールはシステムの専門家が実装をガイドするために使用できます。複数のMPIランクとGPUストリームを備えたプラットフォーム上で、科学計算のキーカーネルであるスパース行列ベクトル乗算(sparse-matrix vector multiplication)を使用して、当社の戦略を実証する。

関連論文リスト

A Comparative Study of OpenMP Scheduling Algorithm Selection Strategies [4.068270792140994]
我々は,OpenMPにおけるスケジューリングアルゴリズムの選択のための学習に基づくアプローチを提案し,評価する。その結果,RL法は高い性能のスケジューリング決定を学習できることがわかった。このアプローチはMPIベースのプログラムにも拡張可能で、並列性の複数のレベルにまたがるスケジューリング決定の最適化を可能にする。
論文参考訳（メタデータ） (2025-07-27T15:10:30Z)
Integrated Hardware Architecture and Device Placement Search [7.620610652090732]
ディープラーニングトレーニングの分散実行には、ハードウェアアクセラレータアーキテクチャとデバイス配置戦略との動的相互作用が含まれる。これは、最適なアーキテクチャとデバイス配置戦略を決定するための協調最適化を探求する最初の試みである。提案手法は,最先端のTPUv4とSpotlightアクセラレーター検索フレームワークと比較して,大規模言語モデルにおいて高いスループットを実現する。
論文参考訳（メタデータ） (2024-07-18T04:02:35Z)
Scaling Tractable Probabilistic Circuits: A Systems Perspective [53.76194929291088]
PyJuiceは、いくつかの点で先行技術を改善するPCの一般的な実装設計である。大規模PCのトレーニングでは、既存のシステムよりも1～2桁高速である。 PyJuiceは2～5倍のメモリを消費するので、より大きなモデルをトレーニングすることができます。
論文参考訳（メタデータ） (2024-06-02T14:57:00Z)
Many-body computing on Field Programmable Gate Arrays [5.3808713424582395]
我々は、量子多体計算を行うために、FPGA(Field Programmable Gate Arrays)の機能を利用する。これにより、モンテカルロアルゴリズムのCPUベースの計算に比べて10倍の高速化が達成された。 FPGAを多体基底状態計算のための典型的なテンソルネットワークアルゴリズムの高速化に利用した。
論文参考訳（メタデータ） (2024-02-09T14:01:02Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文参考訳（メタデータ） (2023-04-07T05:52:59Z)
Machine Learning-Driven Adaptive OpenMP For Portable Performance on Heterogeneous Systems [1.885335997132172]
プログラムを新しい異種プラットフォームに適応させるのは面倒で、開発者は手動で実行パラメータの広大なスペースを探索する必要がある。本稿では,機械学習による自律的適応のためのOpenMPの拡張を提案する。私たちのソリューションには、新しい言語構成、コンパイラ変換、ランタイムサポートのセットが含まれています。
論文参考訳（メタデータ） (2023-03-15T18:37:18Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
A modular software framework for the design and implementation of ptychography algorithms [55.41644538483948]
我々は,Pychographyデータセットをシミュレートし,最先端の再構築アルゴリズムをテストすることを目的とした,新しいptychographyソフトウェアフレームワークであるSciComを紹介する。その単純さにもかかわらず、ソフトウェアはPyTorchインターフェースによる高速化処理を利用する。結果は合成データと実データの両方で示される。
論文参考訳（メタデータ） (2022-05-06T16:32:37Z)
A Deep Learning Inference Scheme Based on Pipelined Matrix Multiplication Acceleration Design and Non-uniform Quantization [9.454905560571085]
本稿では,パイプライン行列乗算法と非一様量子化法に基づく低消費電力多層パーセプトロン(MLP)加速器を提案する。その結果,本手法は少ない消費電力で優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2021-10-10T17:31:27Z)
Multiplierless MP-Kernel Machine For Energy-efficient Edge Devices [6.335302509003343]
マルチプライアレスカーネルマシンを設計するための新しいフレームワークを提案する。このフレームワークは、マージン伝播(MP)技術に基づいて、ピースワイズ線形(PWL)近似を使用する。本研究では,FPGA(Field Programmable Gate Array)プラットフォーム向けに最適化されたハードウェアフレンドリーなMPベースの推論とオンライントレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-03T16:06:08Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
Predictive Coding Approximates Backprop along Arbitrary Computation Graphs [68.8204255655161]
我々は、コア機械学習アーキテクチャを予測的符号化に翻訳する戦略を開発する。私たちのモデルは、挑戦的な機械学習ベンチマークのバックプロップと同等に機能します。本手法は,ニューラルネットワークに標準機械学習アルゴリズムを直接実装できる可能性を高める。
論文参考訳（メタデータ） (2020-06-07T15:35:47Z)
MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文参考訳（メタデータ） (2020-04-16T16:20:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。