論文の概要: GaDE -- GPU-acceleration of time-dependent Dirac Equation for exascale
- arxiv url: http://arxiv.org/abs/2512.21697v1
- Date: Thu, 25 Dec 2025 14:47:36 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:02:35.559993
- Title: GaDE -- GPU-acceleration of time-dependent Dirac Equation for exascale
- Title(参考訳): GaDE -- Exascaleのための時間依存ディラック方程式のGPUアクセラレーション
- Authors: Johanne Elise Vembe, Marcin Krotkiewski, Magnar Bjørgve, Morten Førre, Hicham Agueny,
- Abstract要約: GaDEは相対論的状態における電磁場によって誘起される原子の電子動力学をシミュレートするように設計されている。
AMD MI250X GPU と Hewlett-Packard の Slingshot 相互接続を用いた LUMI による GaDE の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Modern heterogeneous high-performance computing (HPC) systems powered by advanced graphics processing unit (GPU) architectures enable accelerating computing with unprecedented performance and scalability. Here, we present a GPU-accelerated solver for the three-dimensional (3D) time-dependent Dirac equation optimized for distributed HPC systems. The solver named GaDE is designed to simulate the electron dynamics in atoms induced by electromagnetic fields in the relativistic regime. It combines MPI with CUDA/HIP to target both NVIDIA and AMD GPU architectures. We discuss our implementation strategies in which most of the computations are carried out on GPUs, taking advantage of the GPU-aware MPI feature to optimize communication performance. We evaluate GaDE on the pre-exascale supercomputer LUMI, powered by AMD MI250X GPUs and HPE's Slingshot interconnect. Single-GPU performance on NVIDIA A100, GH200, and AMD MI250X shows comparable performance between A100 and MI250X in compute and memory bandwidth, with GH200 delivering higher performance. Weak scaling on LUMI demonstrates exceptional scalability, achieving 85% parallel efficiency across 2048 GPUs, while strong scaling delivers a 16x speedup on 32 GPUs - 50% efficiency for a communication-intensive, time-dependent Dirac equation solver. These results demonstrate GaDE's high scalability, making it suitable for exascale systems and enabling predictive simulations for ultra-intense laser experiments probing relativistic quantum effects.
- Abstract(参考訳): 最新のヘテロジニアス・ハイパフォーマンス・コンピューティング(HPC)システムでは、GPUアーキテクチャにより、前例のない性能とスケーラビリティで計算を高速化することができる。
本稿では,分散HPCシステムに最適化された3次元(3次元)時間依存ディラック方程式に対するGPU加速解法を提案する。
GaDEは相対論的状態における電磁場によって誘導される原子の電子動力学をシミュレートするために設計された。
MPIとCUDA/HIPを組み合わせてNVIDIAとAMDのGPUアーキテクチャをターゲットにしている。
通信性能を最適化するために,GPUを意識したMPI機能を活用し,GPU上で計算処理を行う実装戦略について議論する。
我々は,AMD MI250X GPU と HPE の Slingshot インターコネクトを用いた,既存のスーパーコンピュータ LUMI 上で GaDE を評価する。
NVIDIA A100、GH200、AMD MI250XのシングルGPUパフォーマンスは、A100とMI250Xの計算帯域とメモリ帯域で同等のパフォーマンスを示し、GH200はより高いパフォーマンスを提供する。
LUMIの弱スケーリングは、異常なスケーラビリティを示し、2048GPU間で85%の並列効率を達成する一方、強力なスケーリングは32GPU上で16倍のスピードアップを実現している。
これらの結果は、GaDEの高スケーラビリティを実証し、外部システムに適したものとし、相対論的量子効果を示す超高強度レーザー実験の予測シミュレーションを可能にした。
関連論文リスト
- Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance [0.7340017786387767]
我々は、HPCシステム上でのベンチマークを容易にするため、QED-C Application-Oriented BenchmarksにMPIを導入する。
我々は最近のNVIDIA Grace Blackwell NVL72アーキテクチャを含む様々な相互接続パスを用いてベンチマークを行った。
GPUアーキテクチャの改善は4.5倍以上のスピードアップにつながったが、相互接続性能の進歩は16倍以上のパフォーマンス改善によるソリューションのソリューション化に大きな影響を与えている。
論文 参考訳(メタデータ) (2025-11-18T17:04:28Z) - Distributed Equivariant Graph Neural Networks for Large-Scale Electronic Structure Prediction [76.62155593340763]
密度汎関数理論(DFT)データに基づいて訓練された等価グラフニューラルネットワーク(eGNN)は、前例のない規模で電子構造予測を行う可能性がある。
しかし、このタスクに必要なグラフ表現は密結合である傾向がある。
本稿では,直接GPU通信を利用する分散eGNNの実装と,入力グラフの分割戦略を提案する。
論文 参考訳(メタデータ) (2025-07-04T23:53:47Z) - Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文 参考訳(メタデータ) (2024-07-29T00:14:10Z) - Fully-fused Multi-Layer Perceptrons on Intel Data Center GPUs [3.7101665559244874]
本稿では,Intel Data Center GPU Max 1550用のMulti-formedLayer Perceptrons(MLP)の実装について述べる。
これにより算術強度が大幅に向上し,特に推論性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-26T11:38:39Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - GPU Domain Specialization via Composable On-Package Architecture [0.8240720472180706]
Composable On-Package GPU (COPAGPU)アーキテクチャは、ドメイン特化GPU製品を提供する。
我々は,COPA-GPUが,最大4倍のオフディー帯域幅,32倍のオンパッケージキャッシュ,2.3倍のDRAM帯域幅とキャパシティを備えたベースラインGPUアーキテクチャをモジュール化することにより,DL特化製品を実現する方法を示した。
論文 参考訳(メタデータ) (2021-04-05T23:06:50Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。