論文の概要: Distributed Out-of-Memory NMF on CPU/GPU Architectures
- arxiv url: http://arxiv.org/abs/2202.09518v3
- Date: Thu, 10 Aug 2023 04:11:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-11 16:56:40.393952
- Title: Distributed Out-of-Memory NMF on CPU/GPU Architectures
- Title(参考訳): CPU/GPUアーキテクチャ上での分散メモリ外NMF
- Authors: Ismael Boureima, Manish Bhattarai, Maksim Eren, Erik Skau, Philip
Romero, Stephan Eidenbenz, Boian Alexandrov
- Abstract要約: 本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。
ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
- 参考スコア(独自算出の注目度): 2.016995973628266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an efficient distributed out-of-memory implementation of the
Non-negative Matrix Factorization (NMF) algorithm for heterogeneous
high-performance-computing (HPC) systems. The proposed implementation is based
on prior work on NMFk, which can perform automatic model selection and extract
latent variables and patterns from data. In this work, we extend NMFk by adding
support for dense and sparse matrix operation on multi-node, multi-GPU systems.
The resulting algorithm is optimized for out-of-memory (OOM) problems where the
memory required to factorize a given matrix is greater than the available GPU
memory. Memory complexity is reduced by batching/tiling strategies, and sparse
and dense matrix operations are significantly accelerated with GPU cores (or
tensor cores when available). Input/Output (I/O) latency associated with batch
copies between host and device is hidden using CUDA streams to overlap data
transfers and compute asynchronously, and latency associated with collective
communications (both intra-node and inter-node) is reduced using optimized
NVIDIA Collective Communication Library NCCL based communicators. Benchmark
results show significant improvement, from 32X to 76x speedup, with the new
implementation using GPUs over the CPU-based NMFk. Good weak scaling was
demonstrated on up to 4096 multi-GPU cluster nodes with approximately 25,000
GPUs when decomposing a dense 340 Terabyte-size matrix and an 11 Exabyte-size
sparse matrix of density 10e-6.
- Abstract(参考訳): ヘテロジニアスハイパフォーマンス計算(HPC)システムのための非負行列分解(NMF)アルゴリズムのメモリ外分散実装を提案する。
提案手法は,データから潜在変数やパターンを自動的に抽出し,モデル選択を行うnmfkの先行研究に基づいている。
本研究では,マルチノード,マルチGPUシステム上での高密度かつスパースな行列演算のサポートを追加することでNMFkを拡張する。
得られたアルゴリズムは、与えられた行列を分解するために必要なメモリが利用可能なGPUメモリよりも大きいメモリ外問題(OOM)に最適化される。
メモリの複雑さはバッチ/チルティング戦略によって減少し、スパースと密度の高い行列演算はGPUコア(あるいは利用可能なテンソルコア)で大幅に加速される。
ホストとデバイス間のバッチコピーに関連する入出力(I/O)レイテンシをCUDAストリームを使用して隠蔽し、データ転送と非同期処理を行い、最適化されたNVIDIA Collective Communication Library NCCLベースのコミュニケータを使用して、集合通信(ノード内およびノード間の両方)に関連するレイテンシを低減する。
ベンチマークの結果、32Xから76倍のスピードアップ、CPUベースのNMFk上のGPUを使った新しい実装など、大幅な改善が見られた。
密度340テラバイトサイズの行列と密度10e-6の11エクサバイトサイズのスパース行列を分解する場合,4096個のマルチGPUクラスタノードに約25,000個のGPUを配置した。
関連論文リスト
- Efficient LLM Inference with I/O-Aware Partial KV Cache Recomputation [7.204881999658682]
大規模言語モデル(LLM)の推論は計算的に要求される。
自動回帰デコーディングのコストを削減するため、キーバリュー(KV)キャッシングは中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
コスト効率のよい代替手段は、KVキャッシュをCPUメモリにオフロードすることであり、これはGPUメモリの圧力を軽減するが、ボトルネックをCPUとGPU間のPCIe接続の限られた帯域にシフトさせる。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Boosting the effective performance of massively parallel tensor network
state algorithms on hybrid CPU-GPU based architectures via non-Abelian
symmetries [0.0]
Wigner-Eckhart定理に基づく非アベリア対称性関連テンソル代数は、従来のテンソルネットワーク層から完全に分離されている。
我々は、計算複雑性の観点からarXiv:2305.05581で報告された結果に対し、桁違いの性能向上を達成した。
提案手法の有効性能は250-500TFLOPSと推定される。
論文 参考訳(メタデータ) (2023-09-23T07:49:53Z) - Towards Memory-Efficient Training for Extremely Large Output Spaces --
Learning with 500k Labels on a Single Commodity GPU [2.3224617218247134]
巨大な出力空間(数百万ラベルまで)の分類問題では、最後の層は膨大な量のメモリを必要とする。
スパース接続を使用することで、メモリ要求が大幅に削減されるが、モデルの性能が大幅に低下する可能性がある。
提案手法は,わずか4GBのGPU上で670,000ラベルのデータセットにスケール可能であることを示す。
論文 参考訳(メタデータ) (2023-06-06T14:44:52Z) - HEAT: A Highly Efficient and Affordable Training System for
Collaborative Filtering Based Recommendation on CPUs [11.007606356081435]
協調フィルタリング(CF)は推奨のための最も効果的な手法の1つであることが証明されている。
マルチコアCPUにSimpleXを最適化する作業はなく、パフォーマンスが制限されている。
本稿では,現代CPUのマルチレベルキャッシュとマルチスレッド機能を完全に実現した効率的なCFトレーニングシステム(HEAT)を提案する。
論文 参考訳(メタデータ) (2023-04-14T18:07:26Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Accelerating Barnes-Hut t-SNE Algorithm by Efficient Parallelization on
Multi-Core CPUs [59.18990342943095]
t-SNEは高次元データを視覚化するための最も一般的な埋め込み技術の一つである。
BH t-SNEアルゴリズムは既存のCPU実装では非効率である。
Acc-t-SNEはScikit-learnよりも最大261倍、4倍高速で、daal4pyの最先端のBH t-SNE実装である。
論文 参考訳(メタデータ) (2022-12-22T06:38:40Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。