Fugu-MT 論文翻訳(概要): Virtual reservoir acceleration for CPU and GPU: Case study for coupled spin-torque oscillator reservoir

論文の概要: Virtual reservoir acceleration for CPU and GPU: Case study for coupled spin-torque oscillator reservoir

arxiv url: http://arxiv.org/abs/2312.01121v1
Date: Sat, 2 Dec 2023 12:28:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 19:07:36.783015
Title: Virtual reservoir acceleration for CPU and GPU: Case study for coupled spin-torque oscillator reservoir
Title（参考訳）: CPUとGPUのための仮想貯留層加速:スピントルク振動子共振器のケーススタディ
Authors: Thomas Geert de Jong, Nozomi Akashi, Tomohiro Taniguchi, Hirofumi Notsu, Kohei Nakajima
Abstract要約: CPUとGPUをベースとしたさまざまな実装をベンチマークします。我々の新しい手法は、ベースラインよりも少なくとも2.6倍高速で、N$が1ドルから104ドルの範囲である。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We provide high-speed implementations for simulating reservoirs described by $N$-coupled spin-torque oscillators. Here $N$ also corresponds to the number of reservoir nodes. We benchmark a variety of implementations based on CPU and GPU. Our new methods are at least 2.6 times quicker than the baseline for $N$ in range $1$ to $10^4$. More specifically, over all implementations the best factor is 78.9 for $N=1$ which decreases to 2.6 for $N=10^3$ and finally increases to 23.8 for $N=10^4$. GPU outperforms CPU significantly at $N=2500$. Our results show that GPU implementations should be tested for reservoir simulations. The implementations considered here can be used for any reservoir with evolution that can be approximated using an explicit method.
Abstract（参考訳）: n$共役スピントーク発振器によって記述される貯留層をシミュレートするための高速実装を提供する。ここで$N$は、貯水池ノードの数に対応する。 CPUとGPUに基づくさまざまな実装をベンチマークします。私たちの新しいメソッドは、ベースラインより少なくとも2.6倍高速で、1ドルから10^4$の範囲で$n$です。具体的には、すべての実装において、$N=1$が78.9、$N=10^3$が2.6、最終的に$N=10^4$が23.8になる。 GPUはCPUを$N=2500$で大幅に上回る。その結果,gpuの実装は貯留層シミュレーションのためにテストされるべきであることがわかった。ここで考慮される実装は、明示的な方法を使って近似できる進化を持つ任意の貯水池で使用できる。

関連論文リスト

Scalable simulation of random quantum circuits using projected entangled-pair states [0.0]
ランダム量子回路 (RQC) の状態をシミュレートするために, ビダルゲージに投影された絡み合ったペア状態 (PEPS) を簡易に更新する。従来のCPUでは、$n leq 104$または$chi leq 128$の大規模シミュレーションを行うことで、状態忠実性の普遍的なスケーリング挙動が分かる。
論文参考訳（メタデータ） (2025-04-07T06:47:48Z)
Machine learning-driven conservative-to-primitive conversion in hybrid piecewise polytropic and tabulated equations of state [0.2999888908665658]
本稿では,流体力学シミュレーションにおける保守的・原始的逆転を高速化する機械学習(ML)手法を提案する。我々は、フィードフォワードニューラルネットワーク(NNC2PSとNC2PL)を採用し、PyTorchでトレーニングし、NVIDIARTを用いたGPU推論に最適化した。 NNC2PS推論用の混合精度RTエンジンは、データセットサイズ1000,000点の従来のシングルスレッド実装よりも約400倍高速である。
論文参考訳（メタデータ） (2024-12-10T19:00:01Z)
GPU-accelerated Effective Hamiltonian Calculator [70.12254823574538]
本研究では,非摂動解析対角化法(NPAD)とマグナス拡大法に着想を得た数値解析手法を提案する。私たちの数値技術は、オープンソースPythonパッケージとして、$rm qCH_eff$で利用可能です。
論文参考訳（メタデータ） (2024-11-15T06:33:40Z)
Advanced Techniques for High-Performance Fock Matrix Construction on GPU Clusters [0.0]
opt-UM と opt-Brc は、Hartree-Fock のケーキュレーションを$f$型角運動量関数に拡張した。 Opt-Brc はより小さな系と高度に収縮された三価ゼータの基底集合に対して優れ、オプト-UM は大きな分子系に対して有利である。
論文参考訳（メタデータ） (2024-07-31T08:49:06Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Optimizing Data Collection in Deep Reinforcement Learning [4.9709347068704455]
GPUベクタライゼーションは、一般的に使用されるCPUシミュレータよりも最大1024タイムでスピードアップできる。シミュレーションの複雑さがメモリ帯域幅の要求で増大するにつれて、シミュレーターカーネルの核融合の高速化は11.3Times$となり、最大1024times$に増加することを示す。
論文参考訳（メタデータ） (2022-07-15T20:22:31Z)
Performance Evaluation and Acceleration of the QTensor Quantum Circuit Simulator on GPUs [6.141912076989479]
我々は、NumPy、PyTorch、CuPyのバックエンドを実装し、ベンチマークを行い、CPUまたはGPUにテンソルシミュレーションの最適な割り当てを見つける。ベンチマークしたQAOA回路のCPU上のNumPyベースライン上でのGPUの高速化により,MaxCut問題を解く。
論文参考訳（メタデータ） (2022-04-12T19:03:44Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
TURF: A Two-factor, Universal, Robust, Fast Distribution Learning Algorithm [64.13217062232874]
最も強力で成功したモダリティの1つは、全ての分布を$ell$距離に近似し、基本的に最も近い$t$-piece次数-$d_$の少なくとも1倍大きい。本稿では,この数値をほぼ最適に推定する手法を提案する。
論文参考訳（メタデータ） (2022-02-15T03:49:28Z)
Giga-scale Kernel Matrix Vector Multiplication on GPU [19.663081364196778]
Kernel matrix-vector multiplication (KMVM) は、機械学習と科学計算の基礎となる演算である。 KMVMはメモリと時間の両方で二次的にスケールする傾向があるため、アプリケーションはしばしばこれらの計算制約によって制限される。本稿では,これらのスケーリング問題に対処するため,textitFaster-Fast and Free Memory Method(f30,000m$)という新しい近似手法を提案する。
論文参考訳（メタデータ） (2022-02-02T15:28:15Z)
Simulation of quantum physics with Tensor Processing Units: brute-force computation of ground states and time evolution [0.3232625980782302]
Processing Units (TPU) は、Googleが大規模機械学習タスクをサポートするために開発した。本稿では、量子スピン系をシミュレーションする難しい問題に対して、TPUを再利用する。 2048コアを持つ TPU v3 pod では、最大$N=38$ qubits の波動関数 $|Psirangle$ をシミュレートする。
論文参考訳（メタデータ） (2021-11-19T22:41:04Z)
Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文参考訳（メタデータ） (2021-04-16T09:54:30Z)
Accelerating SLIDE Deep Learning on Modern CPUs: Vectorization, Quantizations, Memory Optimizations, and More [26.748770505062378]
SLIDEはスパースハッシュテーブルベースのバックプロパゲーションのC++実装である。 SLIDE の計算によって AVX (Advanced Vector Extensions-512) によるベクトル化が可能となることを示す。我々の実験は、大規模(数百万のパラメータ)のレコメンデーションとNLPモデルに焦点を当てている。
論文参考訳（メタデータ） (2021-03-06T02:13:43Z)
Streaming Complexity of SVMs [110.63976030971106]
本稿では,ストリーミングモデルにおけるバイアス正規化SVM問題を解く際の空間複雑性について検討する。両方の問題に対して、$frac1lambdaepsilon$の次元に対して、$frac1lambdaepsilon$よりも空間的に小さいストリーミングアルゴリズムを得ることができることを示す。
論文参考訳（メタデータ） (2020-07-07T17:10:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。