論文の概要: Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics
- arxiv url: http://arxiv.org/abs/2407.19614v2
- Date: Tue, 30 Jul 2024 05:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 12:20:00.574921
- Title: Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics
- Title(参考訳): マルチGPU RI-HF エネルギーと解析勾配の$-$高スループットアブ初期分子動力学
- Authors: Ryan Stocks, Elise Palethorpe, Giuseppe M. J. Barca,
- Abstract要約: 本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This article presents an optimized algorithm and implementation for calculating resolution-of-the-identity Hartree-Fock (RI-HF) energies and analytic gradients using multiple Graphics Processing Units (GPUs). The algorithm is especially designed for high throughput \emph{ab initio} molecular dynamics simulations of small and medium size molecules (10-100 atoms). Key innovations of this work include the exploitation of multi-GPU parallelism and a workload balancing scheme that efficiently distributes computational tasks among GPUs. Our implementation also employs techniques for symmetry utilization, integral screening and leveraging sparsity to optimize memory usage and computational efficiency. Computational results show that the implementation achieves significant performance improvements, including over $3\times$ speedups in single GPU AIMD throughput compared to previous GPU-accelerated RI-HF and traditional HF methods. Furthermore, utilizing multiple GPUs can provide super-linear speedup when the additional aggregate GPU memory allows for the storage of decompressed three-center integrals. Additionally, we report strong scaling efficiencies for systems up to 1000 basis functions and demonstrate practical applications through extensive performance benchmarks on up to quadruple-$\zeta$ primary basis sets, achieving floating-point performance of up to 47\% of the theoretical peak on a 4$\times$A100 GPU node.
- Abstract(参考訳): 本稿では,複数のグラフィックス処理ユニット(GPU)を用いて,自己同一性のあるハートリーフォック(RI-HF)エネルギーと解析勾配を計算するための最適化アルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループットな分子動力学シミュレーションのために設計されている。
この研究の主な革新は、マルチGPU並列処理の活用と、GPU間で効率的に計算タスクを分散するワークロード分散スキームである。
また, メモリ使用率と計算効率を最適化するために, 対称性利用, 積分スクリーニング, 空間性を活用した手法も採用している。
計算結果によると、従来のGPUアクセラレーションされたRI-HFや従来のHFメソッドと比較して、シングルGPU AIMDスループットの3ドル以上のスピードアップを含む、大幅なパフォーマンス向上を実現している。
さらに、複数のGPUを利用することで、追加の集約GPUメモリが圧縮された3中心積分のストレージを可能にする場合、超線形スピードアップを提供することができる。
さらに,1000塩基関数までのシステムに対する高いスケーリング効率を報告し,最大4/4$\zeta$プライマリベースセット上での広範なパフォーマンスベンチマークを通じて,4$\times$A100 GPUノード上の理論ピークの最大47/%の浮動小数点性能を実現する。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Advanced Techniques for High-Performance Fock Matrix Construction on GPU Clusters [0.0]
opt-UM と opt-Brc は、Hartree-Fock のケーキュレーションを$f$型角運動量関数に拡張した。
Opt-Brc はより小さな系と高度に収縮された三価ゼータの基底集合に対して優れ、オプト-UM は大きな分子系に対して有利である。
論文 参考訳(メタデータ) (2024-07-31T08:49:06Z) - Optimized thread-block arrangement in a GPU implementation of a linear solver for atmospheric chemistry mechanisms [0.0]
地球系モデル (ESM) は、大気化学プロセスを解決するために重要なハードウェア資源とエネルギー消費を必要とする。
最近の研究では、GPUアクセラレータ上でこれらのモデルを実行することで、パフォーマンスが改善されている。
本研究は,Block-cellsと呼ばれるGPU上でのケミカルソルバの計算負荷の最適化分布を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:12:59Z) - Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs [3.7101665559244874]
本稿では,Intel Data Center GPU Max 1550用のMulti-formedLayer Perceptrons(MLP)の実装について述べる。
これにより算術強度が大幅に向上し,特に推論性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-26T11:38:39Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - GPU Domain Specialization via Composable On-Package Architecture [0.8240720472180706]
Composable On-Package GPU (COPAGPU)アーキテクチャは、ドメイン特化GPU製品を提供する。
我々は,COPA-GPUが,最大4倍のオフディー帯域幅,32倍のオンパッケージキャッシュ,2.3倍のDRAM帯域幅とキャパシティを備えたベースラインGPUアーキテクチャをモジュール化することにより,DL特化製品を実現する方法を示した。
論文 参考訳(メタデータ) (2021-04-05T23:06:50Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。