論文の概要: Advanced Techniques for High-Performance Fock Matrix Construction on GPU Clusters
- arxiv url: http://arxiv.org/abs/2407.21445v1
- Date: Wed, 31 Jul 2024 08:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 12:47:12.342274
- Title: Advanced Techniques for High-Performance Fock Matrix Construction on GPU Clusters
- Title(参考訳): GPUクラスタ上での高性能フォックマトリックス構築技術
- Authors: Elise Palethorpe, Ryan Stocks, Giuseppe M. J. Barca,
- Abstract要約: opt-UM と opt-Brc は、Hartree-Fock のケーキュレーションを$f$型角運動量関数に拡張した。
Opt-Brc はより小さな系と高度に収縮された三価ゼータの基底集合に対して優れ、オプト-UM は大きな分子系に対して有利である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This Article presents two optimized multi-GPU algorithms for Fock matrix construction, building on the work of Ufimtsev et al. and Barca et al. The novel algorithms, opt-UM and opt-Brc, introduce significant enhancements, including improved integral screening, exploitation of sparsity and symmetry, a linear scaling exchange matrix assembly algorithm, and extended capabilities for Hartree-Fock caculations up to $f$-type angular momentum functions. Opt-Brc excels for smaller systems and for highly contracted triple-$\zeta$ basis sets, while opt-UM is advantageous for large molecular systems. Performance benchmarks on NVIDIA A100 GPUs show that our algorithms in the EXtreme-scale Electronic Structure System (EXESS), when combined, outperform all current GPU and CPU Fock build implementations in TeraChem, QUICK, GPU4PySCF, LibIntX, ORCA, and Q-Chem. The implementations were benchmarked on linear and globular systems and average speed ups across three double-$\zeta$ basis sets of 1.5$\times$, 5.2$\times$, and 8.5$\times$ were observed compared to TeraChem, GPU4PySCF, and QUICK respectively. Strong scaling analysis reveals over 91% parallel efficiency on four GPUs for opt-Brc, making it typically faster for multi-GPU execution. Single-compute-node comparisons with CPU-based software like ORCA and Q-Chem show speedups of up to 42$\times$ and 31$\times$, respectively, enhancing power efficiency by up to 18$\times$.
- Abstract(参考訳): 本稿では,Fock行列構築に最適化された2つのマルチGPUアルゴリズム,Ufimtsev et al と Barca et al の作業に基づいて構築された新しいアルゴリズム Op-UM と opt-Brc について述べる。
Opt-Brc はより小さな系と高度に収縮された三重値の基底集合に対して優れ、Opti-UM は大きな分子系に対して有利である。
NVIDIA A100 GPUのパフォーマンスベンチマークによると、EXESS(Exetreme-scale Electronic Structure System)のアルゴリズムは、TeraChem, QUICK, GPU4PySCF, LibIntX, ORCA, Q-Chemの現在のGPUとCPUのFockビルド実装よりも優れています。
実装は線形系と球形系でベンチマークされ、平均速度は1.5$\times$, 5.2$\times$, 8.5$\times$ の3つの倍値\zeta$ のベースセットで、それぞれ TeraChem, GPU4PySCF, QUICK と比較された。
強いスケーリング分析により、Op-Brcの4つのGPUで91%以上の並列効率が明らかになり、一般的にマルチGPU実行が高速化される。
ORCAやQ-ChemのようなCPUベースのソフトウェアと比較すると、それぞれ最大42$\times$と31$\times$のスピードアップを示し、電力効率を最大18$\times$に向上させる。
関連論文リスト
- GPU-accelerated Effective Hamiltonian Calculator [70.12254823574538]
本研究では,非摂動解析対角化法(NPAD)とマグナス拡大法に着想を得た数値解析手法を提案する。
私たちの数値技術は、オープンソースPythonパッケージとして、$rm qCH_eff$で利用可能です。
論文 参考訳(メタデータ) (2024-11-15T06:33:40Z) - Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文 参考訳(メタデータ) (2024-07-29T00:14:10Z) - Introducing GPU-acceleration into the Python-based Simulations of Chemistry Framework [4.368931200886271]
我々はPySCFのメソッドのGPUアクセラレーションを提供するモジュールであるGPU4PySCFの最初のバージョンを紹介する。
ベンチマーク計算は、PySCFのマルチスレッドCPUHartree-Fockコードに対して、2桁の大幅な高速化を示している。
論文 参考訳(メタデータ) (2024-07-12T21:50:19Z) - GPU-accelerated Auxiliary-field quantum Monte Carlo with multi-Slater determinant trial states [11.514211053741338]
本稿では,グラフィック処理ユニットアクセラレーション ph-AFQMC の実装と応用について述べる。
マルチスレーター試行状態を用いて、ph-AFQMCは強い相関系を忠実に扱う可能性がある。
我々の研究はMSDAFQMC計算の効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-06-12T15:15:17Z) - A distributed multi-GPU ab initio density matrix renormalization group
algorithm with applications to the P-cluster of nitrogenase [1.7444066202370399]
Initio density matrix renormalization (DMRG)アルゴリズムを最初に分散したマルチGPU(Graphics Processing Unit)を提案する。
我々は、48 GPU上で、前例のないほど大きな結合次元D=14000$に達することができる。
これは、CPUのみを使用して同じシステムに対する以前のDMRG計算で報告された結合次元の約3倍の大きさである。
論文 参考訳(メタデータ) (2023-11-06T04:01:26Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。
最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。
提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文 参考訳(メタデータ) (2022-06-14T08:14:14Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。