論文の概要: Accelerating State-Vector Quantum Simulation on Integrated GPUs via Cache Locality Optimization: A Cross-Architecture Evaluation
- arxiv url: http://arxiv.org/abs/2605.15098v1
- Date: Thu, 14 May 2026 17:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.975665
- Title: Accelerating State-Vector Quantum Simulation on Integrated GPUs via Cache Locality Optimization: A Cross-Architecture Evaluation
- Title(参考訳): キャッシュローカリティ最適化による集積GPU上の状態ベクトル量子シミュレーションの高速化:クロスアーキテクチャ評価
- Authors: Gabriel Fernandes Thomaz, Jerusa Marchi, Eduarda Rodrigues Monteiro, Fernando Augusto Caletti de Barros, Evandro Chagas Ribeiro da Rosa,
- Abstract要約: この研究は、コンシューマグレードのラップトップで一般的に見られる統合GPUをターゲットにしたベンダーに依存しないアプローチを提案する。
状態ベクトルシミュレーションにおける主な課題は、本質的には空間的局所性が低く、メモリ帯域幅のボトルネックが生じることである。
我々は、最後のレベルのキャッシュ局所性を最大化し、コストのかかるメインメモリフェッチを最小限に抑えるために、量子状態ベクトルを再編成する状態分割最適化を導入する。
- 参考スコア(独自算出の注目度): 33.72751145910978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The classical simulation of quantum algorithms is a crucial tool for circuit development, testing, and validation. Although acceleration using GPUs significantly reduces simulation time, most high-performance simulators rely on vendor-specific frameworks that target data-center hardware. To broaden access to quantum simulation, this work proposes a vendor-agnostic approach targeting the integrated GPUs commonly found in consumer-grade laptops. A primary challenge in state-vector simulation is its inherently poor spatial locality, which creates a memory bandwidth bottleneck. Consequently, baseline implementations experience a severe degradation in relative GPU speedup as the number of simulated qubits increases. To address this limitation, we introduce a state partitioning optimization that reorganizes the quantum state vector to maximize the last-level cache locality and minimize costly main memory fetches. We evaluate this strategy using a Quantum Phase Estimation algorithm across diverse architectures from Intel, AMD, and Apple. The experimental results demonstrate that the proposed optimization successfully mitigates performance degradation at larger qubit scales. In particular, for a 28-qubit simulation, the optimization reversed a performance deficit on an Intel Core i5, improving the GPU speedup over the CPU from 0.95x to 1.89x, and increased the Apple M1 Pro speedup from 3.71x to 5.88x. Overall, this approach yields consistent execution time improvements, demonstrating the viability of integrated GPUs for efficient quantum circuit simulation.
- Abstract(参考訳): 量子アルゴリズムの古典的なシミュレーションは、回路開発、テスト、検証にとって重要なツールである。
GPUを使用したアクセラレーションはシミュレーション時間を著しく短縮するが、ほとんどの高性能シミュレータはデータセンターのハードウェアをターゲットにしたベンダ固有のフレームワークに依存している。
量子シミュレーションへのアクセスを拡大するために、この研究は、コンシューマグレードのラップトップで一般的に見られる統合GPUをターゲットにしたベンダーに依存しないアプローチを提案する。
状態ベクトルシミュレーションにおける主な課題は、本質的には空間的局所性が低く、メモリ帯域幅のボトルネックが生じることである。
これにより、シミュレーション量子ビットの数が増加するにつれて、ベースライン実装は相対GPUのスピードアップが大幅に低下する。
この制限に対処するために、量子状態ベクトルを再編成して最後のレベルキャッシュの局所性を最大化し、コストのかかるメインメモリフェッチを最小限にする状態分割最適化を導入する。
我々は,Intel,AMD,Appleのさまざまなアーキテクチャを対象とした量子位相推定アルゴリズムを用いて,この戦略を評価する。
実験により,提案手法はより大規模な量子ビットスケールにおける性能劣化を軽減できることを示した。
特に28ビットのシミュレーションでは、最適化によってIntel Core i5のパフォーマンスが低下し、CPU上のGPUのスピードアップが0.95xから1.89xに向上し、Apple M1 Proのスピードアップが3.71xから5.88xに向上した。
全体として、このアプローチは一貫した実行時間の改善をもたらし、効率的な量子回路シミュレーションのための統合GPUの実現可能性を示す。
関連論文リスト
- Understand and Accelerate Memory Processing Pipeline for Disaggregated LLM Inference [45.78442013449325]
大規模言語モデルは、複雑な推論をサポートするための効率的な長文処理と生成機構に依存している。
これらの最適化は、Prepare Memory、Compute Relevancy、Retrieval、Apply to Inferenceという4段階のメモリ処理パイプラインに統合できることを示す。
この知見に触発されて、textbheterogeneous システムはメモリ処理の高速化やエンドツーエンドの推論に適していると論じる。
論文 参考訳(メタデータ) (2026-03-30T21:03:39Z) - Scaling Behaviors of Evolutionary Algorithms on GPUs: When Does Parallelism Pay Off? [43.96509049196842]
進化的アルゴリズム(EA)はグラフィックス処理ユニット(GPU)に実装され、並列処理能力を活用して効率を向上させる。
我々は,GPU並列処理が,単純な加速度測定以上のEAの挙動をどのように変化させるかを検討する。
その結果,GPUアクセラレーションの影響は多種多様であり,アルゴリズム構造に強く依存していることが判明した。
論文 参考訳(メタデータ) (2026-01-26T12:55:21Z) - Low-Level and NUMA-Aware Optimization for High-Performance Quantum Simulation [0.3280871442296501]
この研究は、単一ノードシステム上での低レベルおよびNUMA対応チューニングによるパフォーマンス向上に焦点を当てている。
我々はQuEST状態ベクトルシミュレータのオープンソースで高性能な拡張を導入し、最新のプロセッサに最先端の低レベルおよびNUMA対応の最適化を統合する。
論文 参考訳(メタデータ) (2025-06-10T19:35:11Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - Queen: A quick, scalable, and comprehensive quantum circuit simulation for supercomputing [2.821829060100186]
ゲート最適化とシミュレーションモジュールからなる革新的な量子回路シミュレーションツールキットを提案する。
我々はQuEST、IBM-Aer、NVIDIA-cuQuantumなどの最先端シミュレータと比較して平均9倍のスピードアップを実現している。
提案手法は,より高速な量子回路シミュレーションを実現するため,新しい量子アルゴリズムの開発を容易にする。
論文 参考訳(メタデータ) (2024-06-20T08:00:41Z) - Efficient Quantum Circuit Simulation by Tensor Network Methods on Modern GPUs [11.87665112550076]
量子ハードウェアでは、一次シミュレーション法は状態ベクトルとテンソルネットワークに基づいている。
量子ビットと量子ゲートの数が増加するにつれて、ヒルベルト空間の圧倒的な大きさと広範な絡み合いにより、従来の状態ベクトルベースの量子回路シミュレーション手法は不十分であることが証明される。
本研究では,計算効率と精度の2つの側面から最適化手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T02:24:05Z) - MAPLE: Microprocessor A Priori for Latency Estimation [81.91509153539566]
現代のディープニューラルネットワークは、低レイテンシとエネルギー消費を示しながら最先端の精度を示す必要がある。
評価されたアーキテクチャのレイテンシの測定は、NASプロセスにかなりの時間を加えます。
転送学習やドメイン適応に依存しない推定用マイクロプロセッサAプライオリティを提案する。
論文 参考訳(メタデータ) (2021-11-30T03:52:15Z) - Data-Driven Offline Optimization For Architecting Hardware Accelerators [89.68870139177785]
PRIMEと呼ばれるハードウェアアクセラレータを設計するための,データ駆動型オフライン最適化手法を開発した。
PRIMEは、最先端のシミュレーション駆動方式の性能を約1.54倍と1.20倍に改善し、必要な総シミュレーション時間をそれぞれ93%と99%削減する。
さらにPRIMEは、ゼロショット設定で見えないアプリケーションのための効果的なアクセラレーターを設計し、シミュレーションベースの手法を1.26倍に向上させた。
論文 参考訳(メタデータ) (2021-10-20T17:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。