論文の概要: GPU-centric Communication Schemes for HPC and ML Applications
- arxiv url: http://arxiv.org/abs/2503.24230v1
- Date: Mon, 31 Mar 2025 15:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:33:02.180549
- Title: GPU-centric Communication Schemes for HPC and ML Applications
- Title(参考訳): HPCおよびMLアプリケーションのためのGPU中心の通信方式
- Authors: Naveen Namashivayam,
- Abstract要約: GPU対応の通信スキームは、ホストメモリをステージングすることなく、アプリケーション内のGPU対応の通信バッファを直接GPUからNICに移動させる。
CPUスレッドは、そのようなGPU認識のサポートがあっても、通信操作をオーケストレーションするために必要である。
本稿では,CPUからGPUへ通信操作の制御経路を移動させる,GPU中心の通信方式について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Compute nodes on modern heterogeneous supercomputing systems comprise CPUs, GPUs, and high-speed network interconnects (NICs). Parallelization is identified as a technique for effectively utilizing these systems to execute scalable simulation and deep learning workloads. The resulting inter-process communication from the distributed execution of these parallel workloads is one of the key factors contributing to its performance bottleneck. Most programming models and runtime systems enabling the communication requirements on these systems support GPU-aware communication schemes that move the GPU-attached communication buffers in the application directly from the GPU to the NIC without staging through the host memory. A CPU thread is required to orchestrate the communication operations even with support for such GPU-awareness. This survey discusses various available GPU-centric communication schemes that move the control path of the communication operations from the CPU to the GPU. This work presents the need for the new communication schemes, various GPU and NIC capabilities required to implement the schemes, and the potential use-cases addressed. Based on these discussions, challenges involved in supporting the exhibited GPU-centric communication schemes are discussed.
- Abstract(参考訳): 現代の異種スーパーコンピュータシステム上の計算ノードは、CPU、GPU、高速ネットワーク相互接続(NIC)で構成されている。
並列化は、これらのシステムを効果的に活用し、スケーラブルなシミュレーションとディープラーニングのワークロードを実行する技術として認識されている。
これらの並列ワークロードの分散実行によるプロセス間通信は、そのパフォーマンスボトルネックに寄与する重要な要因のひとつです。
これらのシステム上での通信要求を実現するほとんどのプログラミングモデルとランタイムシステムは、GPU対応の通信バッファをホストメモリをステージングすることなく、GPUから直接NICに移行するGPU対応の通信スキームをサポートしている。
CPUスレッドは、そのようなGPU認識のサポートがあっても、通信操作をオーケストレーションするために必要である。
本稿では,CPUからGPUへ通信操作の制御経路を移動させる,GPU中心の通信方式について検討する。
この研究は、新しい通信スキームの必要性、スキームの実装に必要な様々なGPUとNIC機能、そして対処される潜在的なユースケースを示す。
これらの議論に基づき、GPU中心の通信方式をサポートする上での課題について論じる。
関連論文リスト
- Scaling Large Language Model Training on Frontier with Low-Bandwidth Partitioning [2.685330831042324]
通信コストを削減し,メモリ使用量を改善するため,ZeRO++の通信と最適化戦略の集合を提案する。
20B GPTモデルでは、ZeRO++の最大384 GCDと比較して1.71倍のTFLOPS増加、最大384 GCDのスケーリング効率は0.94である。
論文 参考訳(メタデータ) (2025-01-08T04:19:57Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion [9.5114389643299]
本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。
Fluxは核融合によって最大96%の通信を重複させる可能性がある。
全体としては、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LM上でのトレーニングのために、最大1.24倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-06-11T00:17:39Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Heterogeneous Acceleration Pipeline for Recommendation System Training [1.8457649813040096]
レコメンデーションモデルは、ディープラーニングネットワークと大規模な埋め込みテーブルに依存している。
これらのモデルは一般的に、ハイブリッドGPUまたはGPUのみの設定を使用してトレーニングされる。
本稿ではヘテロジニアスなCPUアクセラレーションパイプラインであるHotlineを紹介する。
論文 参考訳(メタデータ) (2022-04-11T23:10:41Z) - Project CGX: Scalable Deep Learning on Commodity GPUs [17.116792714097738]
本稿では,ハードウェアオーバープロビジョンがアルゴリズムとシステム設計によって置き換えられるかを検討する。
本稿では,通信圧縮のための効率的なソフトウェアサポートを提供するCGXというフレームワークを提案する。
このフレームワークは、コンシューマグレードのマルチGPUシステムから通信ボトルネックを取り除くことができる。
論文 参考訳(メタデータ) (2021-11-16T17:00:42Z) - High Performance Hyperspectral Image Classification using Graphics
Processing Units [0.0]
リアルタイムリモートセンシングアプリケーションは、オンボードのリアルタイム処理機能を必要とする。
軽量で小型で低消費電力のハードウェアは、オンボードのリアルタイム処理システムに不可欠である。
論文 参考訳(メタデータ) (2021-05-30T09:26:03Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。