論文の概要: A Controlled Study of Memory Hierarchy Transitions in Quantum Circuit Simulation on Apple M4 Pro Unified Memory Architecture
- arxiv url: http://arxiv.org/abs/2605.08792v2
- Date: Tue, 12 May 2026 04:34:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.930425
- Title: A Controlled Study of Memory Hierarchy Transitions in Quantum Circuit Simulation on Apple M4 Pro Unified Memory Architecture
- Title(参考訳): Apple M4 Pro統一メモリアーキテクチャにおける量子回路シミュレーションにおけるメモリ階層遷移の制御に関する研究
- Authors: Gyan Pratipat,
- Abstract要約: 状態ベクトル量子回路シミュレーションはメモリ帯域境界である。
Apple M4 Pro Unified Memory Architectureを使ってこの問題に対処する。
ピークストリーミング帯域幅は、連続しないメモリアクセスパターンのシミュレーションスピードアップを予測できないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-vector quantum circuit simulation is memory-bandwidth bound, yet the interaction between memory hierarchy, access pattern, and hardware parallelism remains incompletely characterized. We address this using the Apple M4 Pro Unified Memory Architecture (UMA), where CPU and GPU share identical physical LPDDR5X DRAM ($\sim$224 GB/s STREAM bandwidth for both), eliminating memory-technology and interconnect confounds. Using a thermally isolated, multi-trial methodology across 11 simulation backends on GHZ and QFT circuits from 3 to 30 qubits, we make three central contributions. First, a Roofline analysis confirms all gate implementations have arithmetic intensity $\leq$0.38 FLOP/byte, well below the ridge point for any plausible peak compute on modern hardware, establishing structural memory-boundedness. Second, we identify a reproducible 4.46$\times$ timing discontinuity at the 28$\rightarrow$29 qubit transition, confirmed under thermally isolated conditions and cross-validated across GHZ and QFT circuits; tensordot backends exhibit the full discontinuity while direct-index backends maintain $\sim$2$\times$ per-qubit scaling throughout. Third, despite STREAM predicting only 1.85$\times$ GPU speedup (MLX CPU 119.9 GB/s vs. MLX GPU 221.9 GB/s), all three algorithm classes exceed this prediction: tensordot 3.1--4.1$\times$, flat-index 3.5--5.9$\times$, and direct-index 6--10$\times$, demonstrating that peak streaming bandwidth does not predict simulation speedup for non-contiguous memory access patterns, with the gap widening as access irregularity increases. These findings provide a hardware-characterization framework for quantum simulation workloads on UMA.
- Abstract(参考訳): 状態ベクトル量子回路シミュレーションはメモリ帯域境界であるが、メモリ階層、アクセスパターン、ハードウェア並列性の間の相互作用は不完全である。
我々は、Apple M4 Pro Unified Memory Architecture (UMA)を使用してこの問題に対処する。CPUとGPUは同じ物理LPDDR5X DRAM(\sim$224 GB/s STREAMバンド幅)を共有し、メモリ技術と相互接続をなくす。
3ビットから30ビットのGHZおよびQFT回路上の11個のシミュレーションバックエンドを熱的に分離し,マルチトライアル手法を用いて3つの中心的貢献を行う。
まず、Roofline解析により、全てのゲート実装が演算強度$$\leq$0.38 FLOP/byteを持つことを確認した。
第2に、28$\rightarrow$29の量子ビット遷移において再現可能な4.46$\times$タイミング不連続性を同定し、GHZおよびQFT回路にクロスバリデーションされた。
第3に、STREAMは1.85$\times$ GPUスピードアップ(MLX CPU 119.9 GB/s vs. MLX GPU 221.9 GB/s)しか予測していないが、3つのアルゴリズムクラスは全てこの予測を上回っている: tensordot 3.1--4.1$\times$, flat-index 3.5--5.9$\times$, direct-index 6--10$\times$。
これらの知見は、UMA上の量子シミュレーションワークロードのためのハードウェアキャラクタリゼーションフレームワークを提供する。
関連論文リスト
- GPU-Accelerated Quantum Simulation: Empirical Backend Selection, Gate Fusion, and Adaptive Precision [0.0]
本稿では,GPU加速量子回路シミュレーションフレームワークを提案する。
実証的なバックエンド選択アルゴリズムは、実行時にCuPy、PyTorchCUDA、NumPyのCPUバックエンドをベンチマークする。
ゲート融合エンジンはゲートシーケンスの自動識別により回路深さを低減する。
フォールバック機構はGPUメモリの消費を監視し、リソースの枯渇時にメモリ実行を優雅に低下させる。
論文 参考訳(メタデータ) (2026-04-04T17:46:37Z) - Cache Hierarchy and Vectorization Analysis of Lindblad Master Equation Simulation for Near-Term Quantum Control [0.0]
リンドブラッドマスター方程式による開量子システムのシミュレーションは、短期量子制御における計算ボトルネックである。
我々は,現在のCPUのL1,L2,L3キャッシュ境界にまたがるシステムを開発した。
We show that SoA layout with -O3 -march=native -ffast-math yields $2$--$4times$ speedup over scalar array-of-structures baselines。
論文 参考訳(メタデータ) (2026-03-17T21:53:31Z) - FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling [20.849774181776414]
FlashAttention-4はcuDNN 9.13で最大1.3$times$、BF16でB200 GPUで2.7$times$Tritonで最大2.7$times$を達成している。
従来のC++テンプレートベースのアプローチと比較して20~30$times$高速なコンパイルタイムを実現しています。
論文 参考訳(メタデータ) (2026-03-05T18:24:49Z) - XQuant: Breaking the Memory Wall for LLM Inference with KV Cache Rematerialization [58.92253769255316]
LLM推論はメモリフットプリントと帯域幅の要求のために困難である。
XQuantは、ハードウェアプラットフォームの急速に増加する計算能力を利用して、メモリボトルネックを取り除く。
XQuant-CLは、極端な圧縮のためにX埋め込みの層間類似性を利用する。
論文 参考訳(メタデータ) (2025-08-14T06:52:38Z) - A distillation-teleportation protocol for fault-tolerant QRAM [95.99192129224721]
本稿では,論理量子乱数アクセスメモリ(QRAM)をフォールトトレラント実装するためのプロトコルを提案する。
古典的メモリサイズ2n$をコヒーレントにアクセスするために、我々のプロトコルは、フォールトトレラントな量子リソースをわずか$mathrmpoly(n)$で消費する。
論文 参考訳(メタデータ) (2025-05-26T17:42:56Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - A Race Track Trapped-Ion Quantum Processor [0.0]
我々は,周期的境界条件を持つ線形トラップに基づく新しい量子電荷結合デバイスを記述し,ベンチマークする。
当初は32量子ビットで運用されていたが、将来のアップグレードでさらに拡張される予定だ。
論文 参考訳(メタデータ) (2023-05-05T20:07:37Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。