論文の概要: Boosting the effective performance of massively parallel tensor network
state algorithms on hybrid CPU-GPU based architectures via non-Abelian
symmetries
- arxiv url: http://arxiv.org/abs/2309.16724v1
- Date: Sat, 23 Sep 2023 07:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 05:36:27.651396
- Title: Boosting the effective performance of massively parallel tensor network
state algorithms on hybrid CPU-GPU based architectures via non-Abelian
symmetries
- Title(参考訳): 非アベリア対称性を用いたハイブリッドCPU-GPUアーキテクチャにおける大規模並列テンソルネットワーク状態アルゴリズムの有効性能向上
- Authors: Andor Menczer and \"Ors Legeza
- Abstract要約: Wigner-Eckhart定理に基づく非アベリア対称性関連テンソル代数は、従来のテンソルネットワーク層から完全に分離されている。
我々は、計算複雑性の観点からarXiv:2305.05581で報告された結果に対し、桁違いの性能向上を達成した。
提案手法の有効性能は250-500TFLOPSと推定される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present novel algorithmic solutions together with implementation details
utilizing non-Abelian symmetries in order to boost the current limits of tensor
network state algorithms on high performance computing infrastructure. In our
in-house developed hybrid CPU-multiGPU solution scheduling is decentralized,
threads are autonomous and inter-thread communications are solely limited to
interactions with globally visible lock-free constructs. Our custom tailored
virtual memory management ensures data is produced with high spatial locality,
which together with the use of specific sequences of strided batched matrix
operations translates to significantly higher overall throughput. In order to
lower IO overhead, an adaptive buffering technique is used to dynamically match
the level of data abstraction, at which cache repositories are built and
reused, to system resources. The non-Abelian symmetry related tensor algebra
based on Wigner-Eckhart theorem is fully detached from the conventional tensor
network layer, thus massively parallel matrix and tensor operations can be
performed without additional overheads. Altogether, we have achieved an order
of magnitude increase in performance with respect to results reported in
arXiv:2305.05581 in terms of computational complexity and at the same time a
factor of three to six in the actual performance measured in TFLOPS. Benchmark
results are presented on Hilbert space dimensions up to $2.88\times10^{36}$
obtained via large-scale SU(2) spin adapted density matrix renormalization
group simulations on selected strongly correlated molecular systems. These
demonstrate the utilization of NVIDIA's highly specialized tensor cores,
leading to performance around 110 TFLOPS on a single node supplied with eight
NVIDIA A100 devices. In comparison to U(1) implementations with matching
accuracy, our solution has an estimated effective performance of 250-500
TFLOPS.
- Abstract(参考訳): 本稿では,高性能コンピューティング基盤上でのテンソルネットワーク状態アルゴリズムの現在の限界を増大させるために,非アベリア対称性を利用した新しいアルゴリズム解を提案する。
当社が社内開発したハイブリッドCPU-マルチGPUソリューションスケジューリングでは,スレッドは自律的であり,スレッド間通信はグローバルに可視なロックフリー構造とのインタラクションにのみ制限される。
私たちのカスタムの仮想メモリ管理は、データを高い空間的局所性で生成することを確実にします。
IOオーバーヘッドを下げるために、アダプティブバッファリング技術は、キャッシュレポジトリが構築され再利用されるデータの抽象化レベルをシステムリソースに動的に適合させるために使用される。
Wigner-Eckhart定理に基づく非アベリア対称性関連テンソル代数は、従来のテンソルネットワーク層から完全に切り離されるので、大きな並列行列とテンソル演算を追加のオーバーヘッドなく行うことができる。
全体として,計算複雑性の観点からarxiv:2305.05581で報告された結果に対して,tflopsで測定した実性能の3~6倍の性能向上を達成した。
ベンチマーク結果は、選択された強相関分子系上でのSU(2)スピン適応密度行列再正規化群シミュレーションにより得られるヒルベルト空間次元最大2.88\times10^{36}$で示される。
これらはNVIDIAの高度に専門化されたテンソルコアの利用を示し、8つのNVIDIA A100デバイスで供給された単一ノード上での110 TFLOPSのパフォーマンスに繋がった。
一致精度を持つU(1)実装と比較して,提案手法の有効性能は250-500TFLOPSと推定される。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Massively Parallel Tensor Network State Algorithms on Hybrid CPU-GPU
Based Architectures [0.0]
本稿では,HPC インフラストラクチャ構築における TNS アルゴリズムの現在の限界を拡張するため,実装の詳細とともに,新しいアルゴリズムソリューションを提案する。
ヒルベルト空間次元上の問題に対処する選択された強い相関を持つ分子系のベンチマーク結果が2.88times1036$である。
論文 参考訳(メタデータ) (2023-05-09T16:15:07Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。
ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文 参考訳(メタデータ) (2022-02-19T03:49:21Z) - Design and Scaffolded Training of an Efficient DNN Operator for Computer
Vision on the Edge [3.3767251810292955]
FuSeConvは深度的に分離可能な畳み込みの代替となる。
FuSeConvは、その空間と深さの次元に沿って畳み込みを完全に分解する。
Neural Operator Scaffoldingは、深度的に分離可能な畳み込みからの知識を蒸留することでFuSeConvのトレーニングを行う。
論文 参考訳(メタデータ) (2021-08-25T19:22:25Z) - Partitioning sparse deep neural networks for scalable training and
inference [8.282177703075453]
最先端のディープニューラルネットワーク(DNN)には、計算とデータ管理の大幅な要件がある。
スパシフィケーション法とプルーニング法は,DNNの大量の接続を除去するのに有効であることが示されている。
その結果得られたスパースネットワークは、ディープラーニングにおけるトレーニングと推論の計算効率をさらに向上するためのユニークな課題を提示する。
論文 参考訳(メタデータ) (2021-04-23T20:05:52Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。