論文の概要: Hybrid programming-model strategies for GPU offloading of electronic
structure calculation kernels
- arxiv url: http://arxiv.org/abs/2401.13772v1
- Date: Wed, 24 Jan 2024 19:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:50:09.891137
- Title: Hybrid programming-model strategies for GPU offloading of electronic
structure calculation kernels
- Title(参考訳): 電子構造計算カーネルのGPUオフロードのためのハイブリッドプログラミングモデル戦略
- Authors: Jean-Luc Fattebert, Christian F. A. Negre, Joshua Finkelstein,
Jamaludin Mohd-Yusof, Daniel Osei-Kuffuor, Michael E. Wall, Yu Zhang, Nicolas
Bock, Susan M. Mniszewski
- Abstract要約: PROGRESSは電子構造解析のためのライブラリである。
電子構造カーネルに対する線形代数演算を実装している。
本稿では,これらの実装における汎用戦略について述べる。
- 参考スコア(独自算出の注目度): 2.4898174182192974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To address the challenge of performance portability, and facilitate the
implementation of electronic structure solvers, we developed the Basic Matrix
Library (BML) and Parallel, Rapid O(N) and Graph-based Recursive Electronic
Structure Solver (PROGRESS) libraries. BML implements linear algebra operations
necessary for electronic structure kernels using a unified user interface for
various matrix formats (dense, sparse) and architectures (CPUs, GPUs). Focusing
on Density Functional Theory (DFT) and Tight-Binding (TB) models, PROGRESS
implements several solvers for computing the single-particle density matrix and
relies on BML. In this paper, we describe the general strategies used for these
implementations on various computer architectures, using OpenMP target
functionalities on GPUs, in conjunction with third-party libraries to handle
performance critical numerical kernels. We demonstrate the portability of this
approach and its performance on benchmark problems.
- Abstract(参考訳): 性能ポータビリティの課題に対処し,電子構造ソルバの実装を容易にするために,基本行列ライブラリ (bml) と並列,高速なo(n) とグラフベースの再帰的電子構造ソルバ (progress) ライブラリを開発した。
BMLは、様々な行列フォーマット(dense, sparse)とアーキテクチャ(CPU, GPU)の統一ユーザインタフェースを使用して、電子構造カーネルに必要な線形代数演算を実装している。
密度汎関数理論 (DFT) とタイト・バインディング (TB) モデルに焦点をあてて、PROGRESSは単一粒子密度行列を計算するためのいくつかの解法を実装し、BMLに依存している。
本稿では、gpu上のopenmpターゲット機能を用いて、これらの実装で使用される一般的な戦略を、パフォーマンスクリティカルな数値カーネルを扱うサードパーティライブラリと連携して述べる。
我々は、このアプローチの可搬性とそのベンチマーク問題に対する性能を実証する。
関連論文リスト
- Searching for Efficient Linear Layers over a Continuous Space of Structured Matrices [88.33936714942996]
アインシュタイン和を通じて表現可能なすべての線形作用素の探索を可能にする統一フレームワークを提案する。
計算-最適スケーリング法則の違いは主に少数の変数によって支配されていることを示す。
そこで,Mixture-of-Experts (MoE) は,注目ブロックの投影を含む,モデルのすべての線形層におけるMoEを学習する。
論文 参考訳(メタデータ) (2024-10-03T00:44:50Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Automatic Generators for a Family of Matrix Multiplication Routines with
Apache TVM [0.20971479389679337]
我々は、GotoBLAS2、BLIS、OpenBLASといった一般的な線形代数ライブラリのアプローチに従うアルゴリズム群を生成する。
我々はまた、Apache TVMフレームワークを活用して、GEMM用のプロセッサ固有のマイクロカーネルを完全に引き出す。
論文 参考訳(メタデータ) (2023-10-31T10:36:26Z) - Tackling the Matrix Multiplication Micro-kernel Generation with Exo [0.5517652814152908]
新しいハードウェアごとに専用のマイクロカーネルを生成するためのステップバイステップの手順を提案する。
ハードウェアターゲットは、その命令の簡潔なライブラリベースの記述によって完全に指定されるため、生成したコードの移植性も向上する。
論文 参考訳(メタデータ) (2023-10-26T14:09:57Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Efficient GPU implementation of randomized SVD and its applications [17.71779625877989]
行列分解は、次元データの圧縮やディープラーニングアルゴリズムなど、機械学習においてユビキタスである。
行列分解の典型的な解は、計算コストと時間を大幅に増大させる複雑さを持つ。
我々は,計算行列分解の計算負担を軽減するために,現代のグラフィカル処理ユニット(GPU)で並列に動作する効率的な処理操作を利用する。
論文 参考訳(メタデータ) (2021-10-05T07:42:41Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z) - Towards High Performance Relativistic Electronic Structure Modelling:
The EXP-T Program Package [68.8204255655161]
並列計算機用に設計されたFS-RCC方式の新たな実装を提案する。
実装のパフォーマンスとスケーリングの特徴を分析した。
開発されたソフトウェアは、重い超重核を含む原子や分子の性質を予測するための全く新しいレベルの精度を達成することができる。
論文 参考訳(メタデータ) (2020-04-07T20:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。