論文の概要: ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels
- arxiv url: http://arxiv.org/abs/2304.03487v1
- Date: Fri, 7 Apr 2023 05:52:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 12:52:48.515280
- Title: ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels
- Title(参考訳): ParaGraph: HPCカーネルのパフォーマンス最適化のための軽量グラフ表現
- Authors: Ali TehraniJamsaz, Alok Mishra, Akash Dutta, Abid M. Malik, Barbara
Chapman, Ali Jannesari
- Abstract要約: 抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
- 参考スコア(独自算出の注目度): 1.304892050913381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GPU-based HPC clusters are attracting more scientific application developers
due to their extensive parallelism and energy efficiency. In order to achieve
portability among a variety of multi/many core architectures, a popular choice
for an application developer is to utilize directive-based parallel programming
models, such as OpenMP. However, even with OpenMP, the developer must choose
from among many strategies for exploiting a GPU or a CPU. Recently, Machine
Learning (ML) approaches have brought significant advances in the optimizations
of HPC applications. To this end, several ways have been proposed to represent
application characteristics for ML models. However, the available techniques
fail to capture features that are crucial for exposing parallelism. In this
paper, we introduce a new graph-based program representation for parallel
applications that extends the Abstract Syntax Tree to represent control and
data flow information. The originality of this work lies in the addition of new
edges exploiting the implicit ordering and parent-child relationships in ASTs,
as well as the introduction of edge weights to account for loop and condition
information. We evaluate our proposed representation by training a Graph Neural
Network (GNN) to predict the runtime of an OpenMP code region across CPUs and
GPUs. Various transformations utilizing collapse and data transfer between the
CPU and GPU are used to construct the dataset. The predicted runtime of the
model is used to determine which transformation provides the best performance.
Results show that our approach is indeed effective and has normalized RMSE as
low as 0.004 to at most 0.01 in its runtime predictions.
- Abstract(参考訳): GPUベースのHPCクラスタは、その広範な並列性とエネルギー効率のために、より科学的アプリケーション開発者を惹きつけている。
様々なマルチ/マルチコアアーキテクチャ間のポータビリティを実現するため、アプリケーション開発者にとって一般的な選択は、OpenMPのようなディレクティブベースの並列プログラミングモデルを利用することである。
しかし、OpenMPでさえ、開発者はGPUやCPUを利用するための多くの戦略の中から選ぶ必要がある。
近年、機械学習(ML)アプローチは、HPCアプリケーションの最適化に大きな進歩をもたらした。
この目的のために、MLモデルのアプリケーション特性を表現するいくつかの方法が提案されている。
しかし、利用可能なテクニックでは、並列処理の公開に不可欠な機能を捉えられません。
本稿では,制御とデータフロー情報を表現するために抽象構文木を拡張する並列アプリケーションのための新しいグラフベースのプログラム表現を提案する。
この研究の独創性は、astにおける暗黙的な順序付けと親子関係を利用した新しいエッジの追加と、ループや条件情報を考慮したエッジ重みの導入にある。
提案した表現は,GNN(Graph Neural Network)をトレーニングして,CPUやGPU間のOpenMPコード領域のランタイムを予測することで評価する。
CPUとGPU間の崩壊とデータ転送を利用したさまざまな変換がデータセットの構築に使用される。
モデルの予測ランタイムは、どの変換が最高のパフォーマンスを提供するかを判断するために使用される。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化した。
関連論文リスト
- Implementation and Analysis of GPU Algorithms for Vecchia Approximation [0.8057006406834466]
Vecchia Approximationは計算複雑性を減らすために広く使われており、恥ずかしい並列アルゴリズムで計算することができる。
Vecchia Approximationのためにマルチコアソフトウェアが開発されたが、グラフィックス処理ユニット(GPU)上で動作するように設計されたソフトウェアは不足している。
我々の新しい手法は他の2つより優れており、GpGpU Rパッケージに表示されます。
論文 参考訳(メタデータ) (2024-07-03T01:24:44Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Performance Optimization using Multimodal Modeling and Heterogeneous GNN [1.304892050913381]
本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。
本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。
実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-25T04:27:43Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - ML-driven Hardware Cost Model for MLIR [1.2987894327817158]
高レベルMLIRのための機械学習に基づくコストモデルを開発した。
MLIRをラ・NLPモデルのテキスト入力として考えることにより、現代のNLP研究からよく知られた技術を適用することができる。
これらのモデルにより,種々のハードウェア特性に対する誤差境界が低く,合理的に優れた推定値が得られることを示す。
論文 参考訳(メタデータ) (2023-02-14T11:32:47Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Scalable Graph Convolutional Network Training on Distributed-Memory
Systems [5.169989177779801]
グラフ畳み込みネットワーク(GCN)はグラフの深層学習に広く利用されている。
グラフ上の畳み込み操作は不規則なメモリアクセスパターンを誘導するので、GCNトレーニングのためのメモリと通信効率の並列アルゴリズムを設計することはユニークな課題である。
本稿では,大規模プロセッサ数にスケールする並列トレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-09T17:51:13Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z) - Einsum Networks: Fast and Scalable Learning of Tractable Probabilistic
Circuits [99.59941892183454]
我々は,PC用の新しい実装設計であるEinsum Networks (EiNets)を提案する。
中心となるのは、E EiNets は単一のモノリシックな einsum-operation に多数の算術演算を組み合わせている。
本稿では,PCにおける予測最大化(EM)の実装を,自動微分を利用した簡易化が可能であることを示す。
論文 参考訳(メタデータ) (2020-04-13T23:09:15Z) - ProGraML: Graph-based Deep Learning for Program Optimization and
Analysis [16.520971531754018]
本稿では,機械学習のためのグラフベースのプログラム表現であるProGraMLを紹介する。
ProGraMLは平均94.0F1スコアを獲得し、最先端のアプローチを著しく上回っている。
そして、我々のアプローチを2つのハイレベルなタスク - 不均一なデバイスマッピングとプログラム分類 - に適用し、その両方で新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2020-03-23T20:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。