論文の概要: Simulation of quantum many-body dynamics with Tensor Processing Units:
Floquet prethermalization
- arxiv url: http://arxiv.org/abs/2111.08044v2
- Date: Fri, 11 Feb 2022 20:23:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 02:09:02.283365
- Title: Simulation of quantum many-body dynamics with Tensor Processing Units:
Floquet prethermalization
- Title(参考訳): テンソル処理ユニットを用いた量子多体力学のシミュレーション:フロッケ予熱
- Authors: Alan Morningstar, Markus Hauru, Jackson Beall, Martin Ganahl, Adam G.
M. Lewis, Vedika Khemani, and Guifre Vidal
- Abstract要約: 長い時間スケールでの量子多体ダイナミクスの超並列古典シミュレーションにおけるTPUの利用を実証する。
数百万の2量子ゲートを持つ回路に対応するL=34量子ビットを105ドル以上のフロケ時間でシミュレーションする。
我々の研究は、TPUが量子多体力学の最先端のシミュレーションに大きな利点をもたらすことを実証している。
- 参考スコア(独自算出の注目度): 0.3078264203938486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tensor Processing Units (TPUs) are specialized hardware accelerators
developed by Google to support large-scale machine-learning tasks, but they can
also be leveraged to accelerate and scale other linear-algebra-intensive
computations. In this paper we demonstrate the usage of TPUs for massively
parallel, classical simulations of quantum many-body dynamics on long
timescales. We apply our methods to study the phenomenon of Floquet
prethermalization, i.e., exponentially slow heating in quantum spin chains
subject to high-frequency periodic driving. We simulate the dynamics of L=34
qubits for over $10^5$ Floquet periods, corresponding to circuits with millions
of two-qubit gates. The circuits simulated have no additional symmetries and
represent a pure-state evolution in the full $2^L$-dimensional Hilbert space.
This is achieved by distributing the computation over 128 TPU cores. On that
size TPU cluster, we find speedups in wall-clock runtime of 230x and 15x when
compared to reference CPU and single-GPU simulations, respectively, for shorter
30-qubit simulations that can be handled by all three platforms. We study the
computational cost of the simulations, as a function of both the number of
qubits and the number of TPU cores used, up to our maximum capacity of L=40
qubits, which requires a ``full pod" of 2048 TPU cores with tens of terabytes
of memory in total. For these simulations, an 8-TPU-core machine is comparable
to a single A100 GPU, and thus the full TPU pod is comparable to a machine with
hundreds of GPUs. However, the TPU pod is more energy and cost efficient, and
readily accessible (via Google Cloud), unlike such large many-GPU
configurations. We also study the accumulation of numerical error as a function
of circuit depth in very deep circuits. Our work demonstrates that TPUs can
offer significant advantages for state-of-the-art simulations of quantum
many-body dynamics.
- Abstract(参考訳): テンソル処理ユニット(tensor processing unit, tpu)は、googleが大規模機械学習タスクをサポートするために開発したハードウェアアクセラレータだが、他の線形代数集約計算の高速化とスケールアップにも利用できる。
本稿では,TPUを用いた時間スケールの量子多体ダイナミクスの並列・古典シミュレーションについて述べる。
我々は,フロック前熱化現象,すなわち高周波周期駆動を受ける量子スピン鎖の指数的に遅い加熱現象の研究に本手法を適用した。
数百万の2量子ゲートを持つ回路に対応するL=34量子ビットを10^5$フロッケ周期でシミュレーションする。
シミュレーションされた回路は追加の対称性を持たず、フル2^L$次元ヒルベルト空間における純粋状態の進化を表す。
これは、128のTPUコアに計算を分散することで達成される。
このサイズのtpuクラスタでは,3つのプラットフォームすべてで処理可能な30キュービットのシミュレーションで,リファレンスcpuやシングルgpuシミュレーションと比較してウォールクロックランタイムの230倍と15倍のスピードアップが得られます。
シミュレーションの計算コストを,最大容量L=40キュービットまでのキュービット数と使用するTPUコア数の両方の関数として検討し,メモリ数数十テラバイトの2048 TPUコアの「フルポッド」を必要とする。
これらのシミュレーションでは、8-TPUコアマシンは単一のA100 GPUに匹敵するので、完全なTPUポッドは数百のGPUを持つマシンに匹敵する。
しかし、TPUポッドはエネルギーとコスト効率が良く、(Google Cloud経由で)容易にアクセスできる。
また,極深回路における回路深度関数としての数値誤差の蓄積についても検討した。
我々の研究は、TPUが量子多体力学の最先端シミュレーションに大きな利点をもたらすことを示した。
関連論文リスト
- GPU-accelerated Effective Hamiltonian Calculator [70.12254823574538]
本研究では,非摂動解析対角化法(NPAD)とマグナス拡大法に着想を得た数値解析手法を提案する。
私たちの数値技術は、オープンソースPythonパッケージとして、$rm qCH_eff$で利用可能です。
論文 参考訳(メタデータ) (2024-11-15T06:33:40Z) - Efficient Quantum Circuit Simulation by Tensor Network Methods on Modern GPUs [11.87665112550076]
量子ハードウェアでは、一次シミュレーション法は状態ベクトルとテンソルネットワークに基づいている。
量子ビットと量子ゲートの数が増加するにつれて、ヒルベルト空間の圧倒的な大きさと広範な絡み合いにより、従来の状態ベクトルベースの量子回路シミュレーション手法は不十分であることが証明される。
本研究では,計算効率と精度の2つの側面から最適化手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T02:24:05Z) - Efficient techniques to GPU Accelerations of Multi-Shot Quantum
Computing Simulations [0.0]
現在の量子コンピュータは、コンピュータリソース、ハードウェアの限界、不安定性、ノイズのために制限されている。
古典コンピュータにおける量子コンピューティングシミュレーションの性能の向上は、量子コンピュータとそのアルゴリズムの開発に寄与する。
論文 参考訳(メタデータ) (2023-08-07T08:32:36Z) - Tricking AI chips into Simulating the Human Brain: A Detailed
Performance Analysis [0.5354801701968198]
脳シミュレーションでは、複数の最先端AIチップ(Graphcore IPU、GroqChip、劣悪なCoreを持つNvidia GPU、Google TPU)を評価した。
性能解析の結果,シミュレーション問題はGPUとTPUアーキテクチャに極めてよく対応していることがわかった。
GroqChipは、小さなネットワークにおいて両方のプラットフォームより優れているが、精度の低い浮動小数点演算を実装しているため、脳シミュレーションではまだ利用できない。
論文 参考訳(メタデータ) (2023-01-31T13:51:37Z) - Performance Evaluation and Acceleration of the QTensor Quantum Circuit
Simulator on GPUs [6.141912076989479]
我々は、NumPy、PyTorch、CuPyのバックエンドを実装し、ベンチマークを行い、CPUまたはGPUにテンソルシミュレーションの最適な割り当てを見つける。
ベンチマークしたQAOA回路のCPU上のNumPyベースライン上でのGPUの高速化により,MaxCut問題を解く。
論文 参考訳(メタデータ) (2022-04-12T19:03:44Z) - TensorLy-Quantum: Quantum Machine Learning with Tensor Methods [67.29221827422164]
PyTorch APIを採用した量子回路シミュレーションのためのPythonライブラリを作成します。
Ly-Quantumは、単一のGPU上で数百のキュービット、複数のGPU上で数千のキュービットにスケールすることができる。
論文 参考訳(メタデータ) (2021-12-19T19:26:17Z) - Simulation of quantum physics with Tensor Processing Units: brute-force
computation of ground states and time evolution [0.3232625980782302]
Processing Units (TPU) は、Googleが大規模機械学習タスクをサポートするために開発した。
本稿では、量子スピン系をシミュレーションする難しい問題に対して、TPUを再利用する。
2048コアを持つ TPU v3 pod では、最大$N=38$ qubits の波動関数 $|Psirangle$ をシミュレートする。
論文 参考訳(メタデータ) (2021-11-19T22:41:04Z) - Parallel Simulation of Quantum Networks with Distributed Quantum State
Management [56.24769206561207]
我々は、量子ネットワークの並列シミュレーションの要件を特定し、最初の並列離散事象量子ネットワークシミュレータを開発する。
コントリビューションには、複数のプロセスに分散した共有量子情報を維持する量子状態マネージャの設計と開発が含まれています。
既存のシーケンシャルバージョンと並行してオープンソースツールとして,並列SeQUeNCeシミュレータをリリースする。
論文 参考訳(メタデータ) (2021-11-06T16:51:17Z) - Fast quantum circuit simulation using hardware accelerated general
purpose libraries [69.43216268165402]
CuPyは、GPUベースの量子回路向けに開発された汎用ライブラリ(線形代数)である。
上位回路の場合、スピードアップは約2倍、量子乗算器の場合、最先端のC++ベースのシミュレータと比べて約22倍である。
論文 参考訳(メタデータ) (2021-06-26T10:41:43Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。