Fugu-MT 論文翻訳(概要): Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

論文の概要: Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance

arxiv url: http://arxiv.org/abs/2511.14664v1
Date: Tue, 18 Nov 2025 17:04:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-19 16:23:53.22457
Title: Multi-GPU Quantum Circuit Simulation and the Impact of Network Performance
Title（参考訳）: マルチGPU量子回路シミュレーションとネットワーク性能への影響
Authors: W. Michael Brown, Anurag Ramesh, Thomas Lubinski, Thien Nguyen, David E. Bernal Neira,
Abstract要約: 我々は、HPCシステム上でのベンチマークを容易にするため、QED-C Application-Oriented BenchmarksにMPIを導入する。我々は最近のNVIDIA Grace Blackwell NVL72アーキテクチャを含む様々な相互接続パスを用いてベンチマークを行った。 GPUアーキテクチャの改善は4.5倍以上のスピードアップにつながったが、相互接続性能の進歩は16倍以上のパフォーマンス改善によるソリューションのソリューション化に大きな影響を与えている。
参考スコア（独自算出の注目度）: 0.7340017786387767
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As is intrinsic to the fundamental goal of quantum computing, classical simulation of quantum algorithms is notoriously demanding in resource requirements. Nonetheless, simulation is critical to the success of the field and a requirement for algorithm development and validation, as well as hardware design. GPU-acceleration has become standard practice for simulation, and due to the exponential scaling inherent in classical methods, multi-GPU simulation can be required to achieve representative system sizes. In this case, inter-GPU communications can bottleneck performance. In this work, we present the introduction of MPI into the QED-C Application-Oriented Benchmarks to facilitate benchmarking on HPC systems. We review the advances in interconnect technology and the APIs for multi-GPU communication. We benchmark using a variety of interconnect paths, including the recent NVIDIA Grace Blackwell NVL72 architecture that represents the first product to expand high-bandwidth GPU-specialized interconnects across multiple nodes. We show that while improvements to GPU architecture have led to speedups of over 4.5X across the last few generations of GPUs, advances in interconnect performance have had a larger impact with over 16X performance improvements in time to solution for multi-GPU simulations.
Abstract（参考訳）: 量子コンピューティングの基本的な目標に固有のように、量子アルゴリズムの古典的なシミュレーションは、リソースの要求で悪名高い。それでも、シミュレーションは、フィールドの成功とアルゴリズム開発と検証の要件、ハードウェア設計に不可欠である。 GPUアクセラレーションはシミュレーションの標準的な慣行となり、古典的手法に固有の指数関数的スケーリングのため、代表的なシステムサイズを達成するにはマルチGPUシミュレーションが必要である。この場合、GPU間通信はパフォーマンスをボトルネックにする可能性がある。本稿では、HPCシステム上でのベンチマークを容易にするため、QED-C Application-Oriented BenchmarksにMPIを導入する。我々は、相互接続技術とマルチGPU通信のためのAPIの進歩についてレビューする。我々は、最近のNVIDIA Grace Blackwell NVL72アーキテクチャなど、さまざまな相互接続パスを使用してベンチマークを行った。 GPUアーキテクチャの改善は、過去数世代にわたるGPUの4.5倍以上のスピードアップにつながったが、相互接続性能の進歩は、マルチGPUシミュレーションのソリューションに間に合うように16倍以上のパフォーマンス改善に大きく影響した。

関連論文リスト

ParallelKittens: Systematic and Practical Simplification of Multi-GPU AI Kernels [40.94392896555992]
既存のシステムは、計算通信の重複によってこれを緩和するが、しばしばワークロードと新しいアクセラレータ間の理論的帯域幅を満たさない。演算子固有のテクニックの代わりに、簡単な再利用可能な原則の小さなセットが、ワークロードの最適なパフォーマンスを導くことができるかどうかを問う。 PKKittens(PK)カーネルは、最大2.33倍の並列ワークロードを実現する。
論文参考訳（メタデータ） (2025-11-17T21:48:33Z)
Q-GEAR: Improving quantum simulation framework [0.28402080392117757]
本稿では,Qiskit量子回路をCuda-Qカーネルに変換するソフトウェアフレームワークであるQ-Gearを紹介する。 Q-GearはCPUとGPUベースのシミュレーションをそれぞれ、最小のコーディング労力で2桁と10倍に高速化する。
論文参考訳（メタデータ） (2025-04-04T22:17:51Z)
Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文参考訳（メタデータ） (2024-07-29T00:14:10Z)
Hybrid quantum programming with PennyLane Lightning on HPC platforms [0.0]
PennyLaneのLightningスイートは、CPU、GPU、HPCネイティブアーキテクチャとワークロードをターゲットにした高性能なステートベクタシミュレータのコレクションである。 QAOA、VQE、合成ワークロードなどの量子アプリケーションは、サポート対象の古典的コンピューティングアーキテクチャを実証するために実装されている。
論文参考訳（メタデータ） (2024-03-04T22:01:03Z)
Harnessing Manycore Processors with Distributed Memory for Accelerated Training of Sparse and Recurrent Models [43.1773057439246]
現在のAIトレーニングインフラストラクチャは、単一の命令多重データ(SIMD)とシストリック配列アーキテクチャによって支配されている。分散ローカルメモリを用いた大規模並列多重命令型マルチデータアーキテクチャにおけるスパース・リカレントモデルトレーニングについて検討する。
論文参考訳（メタデータ） (2023-11-07T23:18:35Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
The Architectural Implications of Distributed Reinforcement Learning on CPU-GPU Systems [45.479582612113205]
CPU-GPUシステムにおけるRLトレーニングの性能と電力効率を改善する方法について述べる。我々は,最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化を行う。また、新しいシステム設計メトリック、CPU/GPU比を導入し、CPUリソースとGPUリソースの最適なバランスを見つける方法を紹介します。
論文参考訳（メタデータ） (2020-12-08T04:50:05Z)
Faster than FAST: GPU-Accelerated Frontend for High-Speed VIO [46.20949184826173]
この研究は、既存のコンピュータビジョンアルゴリズムを改善するために、効率的な低レベルGPUハードウェア固有の命令の適用性に焦点を当てている。特に、非マックス抑圧とその後の特徴選択は、全体的な画像処理遅延への顕著な寄与である。
論文参考訳（メタデータ） (2020-03-30T14:16:23Z)
Efficient Video Semantic Segmentation with Labels Propagation and Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。 i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文参考訳（メタデータ） (2019-12-26T11:45:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。