論文の概要: Distributed Out-of-Memory NMF of Dense and Sparse Data on CPU/GPU
Architectures with Automatic Model Selection for Exascale Data
- arxiv url: http://arxiv.org/abs/2202.09518v1
- Date: Sat, 19 Feb 2022 03:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 12:25:18.194215
- Title: Distributed Out-of-Memory NMF of Dense and Sparse Data on CPU/GPU
Architectures with Automatic Model Selection for Exascale Data
- Title(参考訳): スケールデータの自動モデル選択によるCPU/GPUアーキテクチャ上の高密度・スパースデータの分散メモリ外NMF
- Authors: Ismael Boureima, Manish Bhattarai, Maksim Eren, Erik Skau, Philip
Romero, Stephan Eidenbenz, Boian Alexandrov
- Abstract要約: 非負行列因子化(Non negative Matrix Factorization, NMF)は、次元の減少、潜在特徴抽出、ブラインドソース分離、データマイニング、機械学習のためのよく知られた非教師なし学習手法である。
本稿では,異種CPU/GPUアーキテクチャのための分散メモリ外NMF方式 pyDNMF-GPU を提案する。
実験では、単一の18コアCPU上での1つのGPU上での最大76倍の改善を計測し、最大4096マルチ上での優れた弱いスケーリングを示す。
- 参考スコア(独自算出の注目度): 2.016995973628266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The need for efficient and scalable big-data analytics methods is more
essential than ever due to the exploding size and complexity of globally
emerging datasets. Nonnegative Matrix Factorization (NMF) is a well-known
explainable unsupervised learning method for dimensionality reduction, latent
feature extraction, blind source separation, data mining, and machine learning.
In this paper, we introduce a new distributed out-of-memory NMF method, named
pyDNMF-GPU, designed for modern heterogeneous CPU/GPU architectures that is
capable of factoring exascale-sized dense and sparse matrices. Our method
reduces the latency associated with local data transfer between the GPU and
host using CUDA streams, and reduces the latency associated with collective
communications (both intra-node and inter-node) via NCCL primitives. In
addition, sparse and dense matrix multiplications are significantly accelerated
with GPU cores, resulting in good scalability. We set new benchmarks for the
size of the data being analyzed: in experiments, we measure up to 76x
improvement on a single GPU over running on a single 18 core CPU and we show
good weak scaling on up to 4096 multi-GPU cluster nodes with approximately
25,000 GPUs, when decomposing a dense 340 Terabyte-size matrix and a 11
Exabyte-size sparse matrix of density 10e-6. Finally, we integrate our method
with an automatic model selection method. With this integration, we introduce a
new tool that is capable of analyzing, compressing, and discovering explainable
latent structures in extremely large sparse and dense data.
- Abstract(参考訳): グローバルに出現するデータセットのサイズと複雑さが爆発的に増大するため、効率的でスケーラブルなビッグデータ分析メソッドの必要性はこれまで以上に重要になっている。
非負行列因子化(Non negative Matrix Factorization, NMF)は、次元の減少、潜在特徴抽出、ブラインドソース分離、データマイニング、機械学習のためのよく知られた非教師なし学習手法である。
本稿では,異種CPU/GPUアーキテクチャのための分散メモリ外NMF方式 pyDNMF-GPU を提案する。
提案手法は,CUDAストリームを用いたGPUとホスト間のローカルデータ転送に伴うレイテンシを低減し,NCCLプリミティブによる集団通信(ノード内およびノード間)に伴うレイテンシを低減する。
さらに、スパースおよび密行列の乗算はgpuコアで大幅に高速化され、スケーラビリティが向上する。
実験では、密度10e-6の11エクサバイトサイズのスパースマトリクスと密度340テラバイトサイズのマトリクスを分解する場合、最大4096個のマルチgpuクラスタノードと約25,000gpuで、単一のgpu上での最大76倍の改善率を測定した。
最後に,本手法を自動モデル選択手法と統合する。
この統合により、非常に大きなスパースで密度の高いデータの中で説明可能な潜在構造を分析し、圧縮し、発見できる新しいツールを導入する。
関連論文リスト
- Efficient LLM Inference with I/O-Aware Partial KV Cache Recomputation [7.204881999658682]
大規模言語モデル(LLM)の推論は計算的に要求される。
自動回帰デコーディングのコストを削減するため、キーバリュー(KV)キャッシングは中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
コスト効率のよい代替手段は、KVキャッシュをCPUメモリにオフロードすることであり、これはGPUメモリの圧力を軽減するが、ボトルネックをCPUとGPU間のPCIe接続の限られた帯域にシフトさせる。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Boosting the effective performance of massively parallel tensor network
state algorithms on hybrid CPU-GPU based architectures via non-Abelian
symmetries [0.0]
Wigner-Eckhart定理に基づく非アベリア対称性関連テンソル代数は、従来のテンソルネットワーク層から完全に分離されている。
我々は、計算複雑性の観点からarXiv:2305.05581で報告された結果に対し、桁違いの性能向上を達成した。
提案手法の有効性能は250-500TFLOPSと推定される。
論文 参考訳(メタデータ) (2023-09-23T07:49:53Z) - Towards Memory-Efficient Training for Extremely Large Output Spaces --
Learning with 500k Labels on a Single Commodity GPU [2.3224617218247134]
巨大な出力空間(数百万ラベルまで)の分類問題では、最後の層は膨大な量のメモリを必要とする。
スパース接続を使用することで、メモリ要求が大幅に削減されるが、モデルの性能が大幅に低下する可能性がある。
提案手法は,わずか4GBのGPU上で670,000ラベルのデータセットにスケール可能であることを示す。
論文 参考訳(メタデータ) (2023-06-06T14:44:52Z) - HEAT: A Highly Efficient and Affordable Training System for
Collaborative Filtering Based Recommendation on CPUs [11.007606356081435]
協調フィルタリング(CF)は推奨のための最も効果的な手法の1つであることが証明されている。
マルチコアCPUにSimpleXを最適化する作業はなく、パフォーマンスが制限されている。
本稿では,現代CPUのマルチレベルキャッシュとマルチスレッド機能を完全に実現した効率的なCFトレーニングシステム(HEAT)を提案する。
論文 参考訳(メタデータ) (2023-04-14T18:07:26Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Accelerating Barnes-Hut t-SNE Algorithm by Efficient Parallelization on
Multi-Core CPUs [59.18990342943095]
t-SNEは高次元データを視覚化するための最も一般的な埋め込み技術の一つである。
BH t-SNEアルゴリズムは既存のCPU実装では非効率である。
Acc-t-SNEはScikit-learnよりも最大261倍、4倍高速で、daal4pyの最先端のBH t-SNE実装である。
論文 参考訳(メタデータ) (2022-12-22T06:38:40Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。