論文の概要: Cache Hierarchy and Vectorization Analysis of Lindblad Master Equation Simulation for Near-Term Quantum Control
- arxiv url: http://arxiv.org/abs/2603.18052v1
- Date: Tue, 17 Mar 2026 21:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.726927
- Title: Cache Hierarchy and Vectorization Analysis of Lindblad Master Equation Simulation for Near-Term Quantum Control
- Title(参考訳): 短期量子制御のためのリンドブラッドマスター方程式のキャッシュ階層とベクトル化解析
- Authors: Rylan Malarchick,
- Abstract要約: リンドブラッドマスター方程式による開量子システムのシミュレーションは、短期量子制御における計算ボトルネックである。
我々は,現在のCPUのL1,L2,L3キャッシュ境界にまたがるシステムを開発した。
We show that SoA layout with -O3 -march=native -ffast-math yields $2$--$4times$ speedup over scalar array-of-structures baselines。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulation of open quantum systems via the Lindblad master equation is a computational bottleneck in near-term quantum control workflows, including optimal pulse engineering (GRAPE), trajectory-based robustness analysis, and feedback controller design. For the system sizes relevant to near-term quantum control ($d = 3$ for a single transmon with leakage, $d = 9$ for two-qubit, and $d = 27$ for three-qubit), the dominant cost per timestep is a $(d^2 \times d^2)$ complex matrix-vector multiplication: a $9\times9$, $81\times81$, or $729\times729$ dense matvec, respectively. The working set sizes (1.5 KB, 105 KB, and 8.1 MB) straddle the L1, L2, and L3 cache boundaries of modern CPUs, making this an ideal system for cache-hierarchy performance analysis. We characterize the arithmetic intensity ($\approx 1/2$ FLOP/byte in the large-$d$ limit), construct a Roofline model for the propagation kernel, and systematically vary compiler flags and data layout to isolate the contributions of auto-vectorization, fused multiply-add, and structure-of-arrays (SoA) memory layout. We show that SoA layout combined with -O3 -march=native -ffast-math yields $2$--$4\times$ speedup over scalar array-of-structures baselines, and that -ffast-math is essential for enabling GCC auto-vectorization of complex arithmetic. These results motivate a set of concrete recommendations for authors of quantum simulation libraries targeting near-term system sizes.
- Abstract(参考訳): リンドブラッドマスター方程式によるオープン量子システムのシミュレーションは、最適パルス工学(GRAPE)、軌道に基づくロバスト性解析、フィードバックコントローラ設計を含む、短期的な量子制御ワークフローにおける計算ボトルネックである。
漏れのある単一トランモンに対して$d = 3$, 2-qubitに対して$d = 9$, 3-qubitに対して$d = 27$, 3-qubitに対して$d = 27$) のシステムサイズについて、タイムステップあたりの支配的なコストは、$(d^2 \times d^2)$ 複雑な行列ベクトル乗算: a 9\times9$, 8,1\times81$, 7,29\times729$ の高密度マットベックである。
ワーキングセットのサイズ(1.5 KB、105 KB、8.1 MB)は、現代のCPUのL1、L2、L3キャッシュの境界をまたいでおり、キャッシュ階層のパフォーマンス解析に理想的なシステムである。
我々は,演算強度(大容量の$d$制限で1/2$ FLOP/バイト)を特徴付け,伝播カーネル用のRooflineモデルを構築し,自動ベクトル化,融合多重加算,SoAメモリレイアウトのコントリビューションを分離するために,コンパイラフラグとデータレイアウトを体系的に変更する。
SoAレイアウトと-O3-march=native -ffast-mathが組み合わさって、スカラー配列のベースラインよりも2-$4\times$スピードアップし、複雑な算術のGCC自動ベクトル化を実現するには-ffast-mathが不可欠であることを示す。
これらの結果は、短期システムサイズをターゲットにした量子シミュレーションライブラリの著者に対して、具体的な推奨事項のセットを動機付けている。
関連論文リスト
- Distributed optimization of Lindblad equations for large-scale cavity QED systems [0.65268245109828]
本稿では,大規模キャビティQEDシステムにおけるLindbladマスター方程式を解くための分散コンピューティングフレームワークを提案する。
単位項に対して、テイラー級数近似とキャノンアルゴリズムの組み合わせは、分散行列の指数化を可能にする。
結果は、このフレームワークが非単体進化を著しく加速することを示している。
論文 参考訳(メタデータ) (2026-03-04T15:38:40Z) - Hamiltonian dynamics simulation using linear combination of unitaries on an ion trap quantum computer [2.164508552729841]
ユニタリ法(LCU)の線形結合は、長年のハミルトン力学をシミュレートする上で、既存の積公式よりもスケールが優れていることが証明されている。
LCUの標準準備・選択・非準備アーキテクチャにおけるマルチコントロールゲート操作の数を考えると、現在の量子コンピュータで実装するのは資源集約的である。
論文 参考訳(メタデータ) (2025-01-30T17:26:41Z) - Computational Supremacy of Quantum Eigensolver by Extension of Optimized Binary Configurations [0.0]
我々は、D-Wave Quantum Annealer(D-Wave QA)に基づく量子固有解法を開発する。
このアプローチは、古典的コンピュータの導出を伴わない固有状態$vert psi rangle$を最適化するために反復的なQA測定を実行する。
提案したQEアルゴリズムは誤差の5倍の10~3$の正確な解を提供することを確認した。
論文 参考訳(メタデータ) (2024-06-05T15:19:53Z) - Towards large-scale quantum optimization solvers with few qubits [59.63282173947468]
我々は、$m=mathcalO(nk)$バイナリ変数を$n$ qubitsだけを使って最適化するために、$k>1$で可変量子ソルバを導入する。
我々は,特定の量子ビット効率の符号化が,バレン高原の超ポリノミウム緩和を内蔵特徴としてもたらすことを解析的に証明した。
論文 参考訳(メタデータ) (2024-01-17T18:59:38Z) - On sampling determinantal and Pfaffian point processes on a quantum
computer [49.1574468325115]
DPPは1970年代の量子光学のモデルとしてマッキによって導入された。
ほとんどのアプリケーションはDPPからのサンプリングを必要としており、その量子起源を考えると、古典的なコンピュータでDPPをサンプリングするのは古典的なものよりも簡単かどうか疑問に思うのが自然である。
バニラサンプリングは、各コスト$mathcalO(N3)$と$mathcalO(Nr2)$の2つのステップから構成される。
論文 参考訳(メタデータ) (2023-05-25T08:43:11Z) - Quantum Resources Required to Block-Encode a Matrix of Classical Data [56.508135743727934]
回路レベルの実装とリソース推定を行い、古典データの高密度な$Ntimes N$行列をブロックエンコードして$epsilon$を精度良くすることができる。
異なるアプローチ間のリソーストレードオフを調査し、量子ランダムアクセスメモリ(QRAM)の2つの異なるモデルの実装を検討する。
我々の結果は、単純なクエリの複雑さを超えて、大量の古典的データが量子アルゴリズムにアクセスできると仮定された場合のリソースコストの明確な図を提供する。
論文 参考訳(メタデータ) (2022-06-07T18:00:01Z) - Density Matrix Renormalization Group with Tensor Processing Units [0.0]
GoogleのProcessing Units(TPU)は、機械学習ワークロードの高速化とスケールアップに特化した集積回路である。
本研究では、局所量子多体ハミルトニアンの基底状態を計算するための強力な数値的アプローチである密度行列再正規化群(DMRG)の高速化とスケールアップにTPUを用いることを実証する。
論文 参考訳(メタデータ) (2022-04-12T10:40:14Z) - Realization of arbitrary doubly-controlled quantum phase gates [62.997667081978825]
本稿では,最適化問題における短期量子優位性の提案に着想を得た高忠実度ゲートセットを提案する。
3つのトランペット四重項のコヒーレントな多レベル制御を編成することにより、自然な3量子ビット計算ベースで作用する決定論的連続角量子位相ゲートの族を合成する。
論文 参考訳(メタデータ) (2021-08-03T17:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。