論文の概要: Parallelizing Large-Scale Tensor Network Contraction on Multiple GPUs
- arxiv url: http://arxiv.org/abs/2606.01852v1
- Date: Mon, 01 Jun 2026 08:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.595414
- Title: Parallelizing Large-Scale Tensor Network Contraction on Multiple GPUs
- Title(参考訳): 複数のGPU上での大規模テンソルネットワークの並列化
- Authors: Feng Pan, Hanfeng Gu, Paul Springer, Xipeng Li,
- Abstract要約: 本稿では,中間テンソルを明示的な通信でデバイスに分散するマルチGPUフレームワークを提案する。
1つのDGX H100ノード内において、ディストリビューションは、恥ずかしく並列スライシングを超えた追加のスピードアップを7ドルから173タイムで提供する。
- 参考スコア(独自算出の注目度): 3.1427737822791797
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Exact tensor network contraction underpins quantum circuit simulation, quantum error correction, combinatorial optimization, and many-body dynamics. The dominant parallelization strategy, slicing, scales exponentially and incurs redundant computation. We present a multi-GPU framework that instead distributes intermediate tensors across devices with explicit communication, converting a fixed contraction path into a communication-efficient schedule via GEMM-oriented mode reordering and communication-aware mode distribution planning. Within a single DGX H100 node (8 GPUs, NVLink), distribution delivers $7$--$173\times$ extra speedup beyond embarrassingly parallel slicing, capturing nearly all of the available compute reduction (87--101%) because NVLink's high bandwidth keeps communication small relative to compute. Scaling the same four workloads to 1024 H100 GPUs over InfiniBand, the extra speedup beyond slicing ranges from $42\times$ to $67{,}869\times$, demonstrating that communication-aware distributed contraction far surpasses slicing-based scaling limits for frontier tensor networks.
- Abstract(参考訳): Exact tensor Network contractionは、量子回路シミュレーション、量子エラー補正、組合せ最適化、多体ダイナミクスを支える。
並列化戦略であるスライシングは指数関数的にスケールし、冗長な計算を発生させる。
本稿では,中間テンソルをデバイス間で明示的な通信で分散し,GEMM指向のモードリオーダーと通信対応モードの分散計画により,固定された収縮経路を通信効率の高いスケジュールに変換するマルチGPUフレームワークを提案する。
1つのDGX H100ノード (8GPU、NVLink) 内では、NVLinkの高帯域幅は計算量に対して通信を小さくするので、恥ずかしいほど並列スライシング以上の余分なスピードアップを7ドル---173\times$で提供する。
同じ4つのワークロードをInfiniBand上で1024 H100 GPUにスケーリングすることで、スライシング以外の余分なスピードアップは、42\times$から67{,}869\times$まで、フロンティアテンソルネットワークのスライシングベースのスケーリング制限をはるかに越えていることを示す。
関連論文リスト
- FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-06-11T00:17:39Z) - Communication-Free Distributed GNN Training with Vertex Cut [63.22674903170953]
CoFree-GNNは、コミュニケーションのないトレーニングを実装することで、トレーニングプロセスを大幅に高速化する、分散GNNトレーニングフレームワークである。
我々は、CoFree-GNNが既存の最先端のGNNトレーニングアプローチよりも最大10倍高速なGNNトレーニングプロセスを実証した。
論文 参考訳(メタデータ) (2023-08-06T21:04:58Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。