論文の概要: Hybrid programming-model strategies for GPU offloading of electronic
structure calculation kernels
- arxiv url: http://arxiv.org/abs/2401.13772v1
- Date: Wed, 24 Jan 2024 19:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:50:09.891137
- Title: Hybrid programming-model strategies for GPU offloading of electronic
structure calculation kernels
- Title(参考訳): 電子構造計算カーネルのGPUオフロードのためのハイブリッドプログラミングモデル戦略
- Authors: Jean-Luc Fattebert, Christian F. A. Negre, Joshua Finkelstein,
Jamaludin Mohd-Yusof, Daniel Osei-Kuffuor, Michael E. Wall, Yu Zhang, Nicolas
Bock, Susan M. Mniszewski
- Abstract要約: PROGRESSは電子構造解析のためのライブラリである。
電子構造カーネルに対する線形代数演算を実装している。
本稿では,これらの実装における汎用戦略について述べる。
- 参考スコア(独自算出の注目度): 2.4898174182192974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To address the challenge of performance portability, and facilitate the
implementation of electronic structure solvers, we developed the Basic Matrix
Library (BML) and Parallel, Rapid O(N) and Graph-based Recursive Electronic
Structure Solver (PROGRESS) libraries. BML implements linear algebra operations
necessary for electronic structure kernels using a unified user interface for
various matrix formats (dense, sparse) and architectures (CPUs, GPUs). Focusing
on Density Functional Theory (DFT) and Tight-Binding (TB) models, PROGRESS
implements several solvers for computing the single-particle density matrix and
relies on BML. In this paper, we describe the general strategies used for these
implementations on various computer architectures, using OpenMP target
functionalities on GPUs, in conjunction with third-party libraries to handle
performance critical numerical kernels. We demonstrate the portability of this
approach and its performance on benchmark problems.
- Abstract(参考訳): 性能ポータビリティの課題に対処し,電子構造ソルバの実装を容易にするために,基本行列ライブラリ (bml) と並列,高速なo(n) とグラフベースの再帰的電子構造ソルバ (progress) ライブラリを開発した。
BMLは、様々な行列フォーマット(dense, sparse)とアーキテクチャ(CPU, GPU)の統一ユーザインタフェースを使用して、電子構造カーネルに必要な線形代数演算を実装している。
密度汎関数理論 (DFT) とタイト・バインディング (TB) モデルに焦点をあてて、PROGRESSは単一粒子密度行列を計算するためのいくつかの解法を実装し、BMLに依存している。
本稿では、gpu上のopenmpターゲット機能を用いて、これらの実装で使用される一般的な戦略を、パフォーマンスクリティカルな数値カーネルを扱うサードパーティライブラリと連携して述べる。
我々は、このアプローチの可搬性とそのベンチマーク問題に対する性能を実証する。
関連論文リスト
- Automatic Generators for a Family of Matrix Multiplication Routines with
Apache TVM [0.20971479389679337]
我々は、GotoBLAS2、BLIS、OpenBLASといった一般的な線形代数ライブラリのアプローチに従うアルゴリズム群を生成する。
我々はまた、Apache TVMフレームワークを活用して、GEMM用のプロセッサ固有のマイクロカーネルを完全に引き出す。
論文 参考訳(メタデータ) (2023-10-31T10:36:26Z) - Tackling the Matrix Multiplication Micro-kernel Generation with Exo [0.5517652814152908]
新しいハードウェアごとに専用のマイクロカーネルを生成するためのステップバイステップの手順を提案する。
ハードウェアターゲットは、その命令の簡潔なライブラリベースの記述によって完全に指定されるため、生成したコードの移植性も向上する。
論文 参考訳(メタデータ) (2023-10-26T14:09:57Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor
Abstractions on CPU Architectures [101.36990944099105]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - ES-Based Jacobian Enables Faster Bilevel Optimization [53.675623215542515]
バイレベル最適化(BO)は多くの現代の機械学習問題を解決する強力なツールとして生まれてきた。
既存の勾配法では、ヤコビアンあるいはヘッセンベクトル計算による二階微分近似が必要となる。
本稿では,進化戦略(ES)に基づく新しいBOアルゴリズムを提案し,BOの過勾配における応答ヤコビ行列を近似する。
論文 参考訳(メタデータ) (2021-10-13T19:36:50Z) - Efficient GPU implementation of randomized SVD and its applications [17.71779625877989]
行列分解は、次元データの圧縮やディープラーニングアルゴリズムなど、機械学習においてユビキタスである。
行列分解の典型的な解は、計算コストと時間を大幅に増大させる複雑さを持つ。
我々は,計算行列分解の計算負担を軽減するために,現代のグラフィカル処理ユニット(GPU)で並列に動作する効率的な処理操作を利用する。
論文 参考訳(メタデータ) (2021-10-05T07:42:41Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z) - Towards High Performance Relativistic Electronic Structure Modelling:
The EXP-T Program Package [68.8204255655161]
並列計算機用に設計されたFS-RCC方式の新たな実装を提案する。
実装のパフォーマンスとスケーリングの特徴を分析した。
開発されたソフトウェアは、重い超重核を含む原子や分子の性質を予測するための全く新しいレベルの精度を達成することができる。
論文 参考訳(メタデータ) (2020-04-07T20:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。