論文の概要: Parallelizing the Variational Quantum Eigensolver: From JIT Compilation to Multi-GPU Scaling
- arxiv url: http://arxiv.org/abs/2601.09951v1
- Date: Thu, 15 Jan 2026 00:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.927803
- Title: Parallelizing the Variational Quantum Eigensolver: From JIT Compilation to Multi-GPU Scaling
- Title(参考訳): 変分量子固有解器の並列化:JITコンパイルからマルチGPUスケーリングへ
- Authors: Rylan Malarchick, Ashton Steed,
- Abstract要約: 変分量子固有解法(VQE)は、分子系の基底状態エネルギーを計算するためのハイブリッド量子古典的アルゴリズムである。
我々は、ペニーレーン量子コンピューティングフレームワークを用いて、100結合長にわたる水素分子のポテンシャルエネルギー面を計算するためにVQEを実装した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Variational Quantum Eigensolver (VQE) is a hybrid quantum-classical algorithm for computing ground state energies of molecular systems. We implement VQE to calculate the potential energy surface of the hydrogen molecule (H$_2$) across 100 bond lengths using the PennyLane quantum computing framework on an HPC cluster featuring 4$\times$ NVIDIA H100 GPUs (80GB each). We present a comprehensive parallelization study with four phases: (1) Optimizer + JIT compilation achieving 4.13$\times$ speedup, (2) GPU device acceleration achieving 3.60$\times$ speedup at 4 qubits scaling to 80.5$\times$ at 26 qubits, (3) MPI parallelization achieving 28.5$\times$ speedup, and (4) Multi-GPU scaling achieving 3.98$\times$ speedup with 99.4% parallel efficiency across 4 H100 GPUs. The combined effect yields 117$\times$ total speedup for the H$_2$ potential energy surface (593.95s $\rightarrow$ 5.04s). We conduct a CPU vs GPU scaling study from 4--26 qubits, finding GPU advantage at all scales with speedups ranging from 10.5$\times$ to 80.5$\times$. Multi-GPU benchmarks demonstrate near-perfect scaling with 99.4% efficiency and establish that a single H100 can simulate up to 29 qubits before hitting memory limits. The optimized implementation reduces runtime from nearly 10 minutes to 5 seconds, enabling interactive quantum chemistry exploration.
- Abstract(参考訳): 変分量子固有解法(VQE)は、分子系の基底状態エネルギーを計算するためのハイブリッド量子古典的アルゴリズムである。
我々は4$\times$NVIDIA H100 GPU (80GB)のHPCクラスタ上でPennyLane量子コンピューティングフレームワークを用いて,100結合長の水素分子(H$_2$)のポテンシャルエネルギー面を計算するためにVQEを実装した。
我々は,(1)オプティマイザ+JITコンパイルの4.13$\times$スピードアップ,(2)GPUデバイスアクセラレーションの3.60$\times$スピードアップ,(4)80.5$\times$ at 26 qubits,(3)MPI並列化の28.5$\times$スピードアップ,(4)マルチGPUスケーリングの3.98$\times$スピードアップ,4つのH100 GPU間の99.4%並列効率の3.98$\times$スピードアップの4つのフェーズからなる総合並列化研究を提案する。
結合効果は117$\times$ H$_2$ポテンシャルエネルギー表面の総スピードアップ(593.95s$\rightarrow$ 5.04s)をもたらす。
我々は4-26キュービットのCPUとGPUのスケーリング調査を行い、すべてのスケールでGPUのアドバンテージを見つけ、スピードアップは10.5$\times$から80.5$\times$までである。
マルチGPUベンチマークでは、99.4%の効率でほぼ完璧なスケーリングを示し、1つのH100が最大29量子ビットまでメモリ限界に達する前にシミュレート可能であることを証明している。
最適化された実装はランタイムを10分から5秒に短縮し、インタラクティブな量子化学探査を可能にする。
関連論文リスト
- GaDE -- GPU-acceleration of time-dependent Dirac Equation for exascale [0.0]
GaDEは相対論的状態における電磁場によって誘起される原子の電子動力学をシミュレートするように設計されている。
AMD MI250X GPU と Hewlett-Packard の Slingshot 相互接続を用いた LUMI による GaDE の評価を行った。
論文 参考訳(メタデータ) (2025-12-25T14:47:36Z) - Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Advanced Techniques for High-Performance Fock Matrix Construction on GPU Clusters [0.0]
opt-UM と opt-Brc は、Hartree-Fock のケーキュレーションを$f$型角運動量関数に拡張した。
Opt-Brc はより小さな系と高度に収縮された三価ゼータの基底集合に対して優れ、オプト-UM は大きな分子系に対して有利である。
論文 参考訳(メタデータ) (2024-07-31T08:49:06Z) - Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文 参考訳(メタデータ) (2024-07-29T00:14:10Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Simulation of quantum many-body dynamics with Tensor Processing Units:
Floquet prethermalization [0.3078264203938486]
長い時間スケールでの量子多体ダイナミクスの超並列古典シミュレーションにおけるTPUの利用を実証する。
数百万の2量子ゲートを持つ回路に対応するL=34量子ビットを105ドル以上のフロケ時間でシミュレーションする。
我々の研究は、TPUが量子多体力学の最先端のシミュレーションに大きな利点をもたらすことを実証している。
論文 参考訳(メタデータ) (2021-11-15T19:02:54Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。