論文の概要: Virtual reservoir acceleration for CPU and GPU: Case study for coupled
spin-torque oscillator reservoir
- arxiv url: http://arxiv.org/abs/2312.01121v1
- Date: Sat, 2 Dec 2023 12:28:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 19:07:36.783015
- Title: Virtual reservoir acceleration for CPU and GPU: Case study for coupled
spin-torque oscillator reservoir
- Title(参考訳): CPUとGPUのための仮想貯留層加速:スピントルク振動子共振器のケーススタディ
- Authors: Thomas Geert de Jong, Nozomi Akashi, Tomohiro Taniguchi, Hirofumi
Notsu, Kohei Nakajima
- Abstract要約: CPUとGPUをベースとしたさまざまな実装をベンチマークします。
我々の新しい手法は、ベースラインよりも少なくとも2.6倍高速で、N$が1ドルから104ドルの範囲である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide high-speed implementations for simulating reservoirs described by
$N$-coupled spin-torque oscillators. Here $N$ also corresponds to the number of
reservoir nodes. We benchmark a variety of implementations based on CPU and
GPU. Our new methods are at least 2.6 times quicker than the baseline for $N$
in range $1$ to $10^4$. More specifically, over all implementations the best
factor is 78.9 for $N=1$ which decreases to 2.6 for $N=10^3$ and finally
increases to 23.8 for $N=10^4$. GPU outperforms CPU significantly at $N=2500$.
Our results show that GPU implementations should be tested for reservoir
simulations. The implementations considered here can be used for any reservoir
with evolution that can be approximated using an explicit method.
- Abstract(参考訳): n$共役スピントーク発振器によって記述される貯留層をシミュレートするための高速実装を提供する。
ここで$N$は、貯水池ノードの数に対応する。
CPUとGPUに基づくさまざまな実装をベンチマークします。
私たちの新しいメソッドは、ベースラインより少なくとも2.6倍高速で、1ドルから10^4$の範囲で$n$です。
具体的には、すべての実装において、$N=1$が78.9、$N=10^3$が2.6、最終的に$N=10^4$が23.8になる。
GPUはCPUを$N=2500$で大幅に上回る。
その結果,gpuの実装は貯留層シミュレーションのためにテストされるべきであることがわかった。
ここで考慮される実装は、明示的な方法を使って近似できる進化を持つ任意の貯水池で使用できる。
関連論文リスト
- GPU-accelerated Effective Hamiltonian Calculator [70.12254823574538]
本研究では,非摂動解析対角化法(NPAD)とマグナス拡大法に着想を得た数値解析手法を提案する。
私たちの数値技術は、オープンソースPythonパッケージとして、$rm qCH_eff$で利用可能です。
論文 参考訳(メタデータ) (2024-11-15T06:33:40Z) - Advanced Techniques for High-Performance Fock Matrix Construction on GPU Clusters [0.0]
opt-UM と opt-Brc は、Hartree-Fock のケーキュレーションを$f$型角運動量関数に拡張した。
Opt-Brc はより小さな系と高度に収縮された三価ゼータの基底集合に対して優れ、オプト-UM は大きな分子系に対して有利である。
論文 参考訳(メタデータ) (2024-07-31T08:49:06Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Optimizing Data Collection in Deep Reinforcement Learning [4.9709347068704455]
GPUベクタライゼーションは、一般的に使用されるCPUシミュレータよりも最大1024タイムでスピードアップできる。
シミュレーションの複雑さがメモリ帯域幅の要求で増大するにつれて、シミュレーターカーネルの核融合の高速化は11.3Times$となり、最大1024times$に増加することを示す。
論文 参考訳(メタデータ) (2022-07-15T20:22:31Z) - Performance Evaluation and Acceleration of the QTensor Quantum Circuit
Simulator on GPUs [6.141912076989479]
我々は、NumPy、PyTorch、CuPyのバックエンドを実装し、ベンチマークを行い、CPUまたはGPUにテンソルシミュレーションの最適な割り当てを見つける。
ベンチマークしたQAOA回路のCPU上のNumPyベースライン上でのGPUの高速化により,MaxCut問題を解く。
論文 参考訳(メタデータ) (2022-04-12T19:03:44Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - TURF: A Two-factor, Universal, Robust, Fast Distribution Learning
Algorithm [64.13217062232874]
最も強力で成功したモダリティの1つは、全ての分布を$ell$距離に近似し、基本的に最も近い$t$-piece次数-$d_$の少なくとも1倍大きい。
本稿では,この数値をほぼ最適に推定する手法を提案する。
論文 参考訳(メタデータ) (2022-02-15T03:49:28Z) - Simulation of quantum physics with Tensor Processing Units: brute-force
computation of ground states and time evolution [0.3232625980782302]
Processing Units (TPU) は、Googleが大規模機械学習タスクをサポートするために開発した。
本稿では、量子スピン系をシミュレーションする難しい問題に対して、TPUを再利用する。
2048コアを持つ TPU v3 pod では、最大$N=38$ qubits の波動関数 $|Psirangle$ をシミュレートする。
論文 参考訳(メタデータ) (2021-11-19T22:41:04Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Accelerating SLIDE Deep Learning on Modern CPUs: Vectorization,
Quantizations, Memory Optimizations, and More [26.748770505062378]
SLIDEはスパースハッシュテーブルベースのバックプロパゲーションのC++実装である。
SLIDE の計算によって AVX (Advanced Vector Extensions-512) によるベクトル化が可能となることを示す。
我々の実験は、大規模(数百万のパラメータ)のレコメンデーションとNLPモデルに焦点を当てている。
論文 参考訳(メタデータ) (2021-03-06T02:13:43Z) - Streaming Complexity of SVMs [110.63976030971106]
本稿では,ストリーミングモデルにおけるバイアス正規化SVM問題を解く際の空間複雑性について検討する。
両方の問題に対して、$frac1lambdaepsilon$の次元に対して、$frac1lambdaepsilon$よりも空間的に小さいストリーミングアルゴリズムを得ることができることを示す。
論文 参考訳(メタデータ) (2020-07-07T17:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。