論文の概要: Project CGX: Scalable Deep Learning on Commodity GPUs
- arxiv url: http://arxiv.org/abs/2111.08617v2
- Date: Wed, 17 Nov 2021 14:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 12:30:30.724486
- Title: Project CGX: Scalable Deep Learning on Commodity GPUs
- Title(参考訳): Project CGX:コモディティGPUのスケーラブルなディープラーニング
- Authors: Ilia Markov, Hamidreza Ramezanikebrya, Dan Alistarh
- Abstract要約: 本稿では,ハードウェアオーバープロビジョンがアルゴリズムとシステム設計によって置き換えられるかを検討する。
本稿では,通信圧縮のための効率的なソフトウェアサポートを提供するCGXというフレームワークを提案する。
このフレームワークは、コンシューマグレードのマルチGPUシステムから通信ボトルネックを取り除くことができる。
- 参考スコア(独自算出の注目度): 17.116792714097738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to scale out training workloads has been one of the key
performance enablers of deep learning. The main scaling approach is
data-parallel GPU-based training, which has been boosted by hardware and
software support for highly efficient inter-GPU communication, in particular
via bandwidth overprovisioning. This support comes at a price: there is an
order of magnitude cost difference between "cloud-grade" servers with such
support, relative to their "consumer-grade" counterparts, although server-grade
and consumer-grade GPUs can have similar computational envelopes. In this
paper, we investigate whether the expensive hardware overprovisioning approach
can be supplanted via algorithmic and system design, and propose a framework
called CGX, which provides efficient software support for communication
compression. We show that this framework is able to remove communication
bottlenecks from consumer-grade multi-GPU systems, in the absence of hardware
support: when training modern models and tasks to full accuracy, our framework
enables self-speedups of 2-3X on a commodity system using 8 consumer-grade
NVIDIA RTX 3090 GPUs, and enables it to surpass the throughput of an NVIDIA
DGX-1 server, which has similar peak FLOPS but benefits from bandwidth
overprovisioning.
- Abstract(参考訳): トレーニングワークロードをスケールアウトする能力は、ディープラーニングの重要なパフォーマンス実現要因のひとつです。
主なスケーリングアプローチはデータ並列GPUベースのトレーニングであり、特に帯域幅のオーバープロビジョンを通じて、高効率なGPU間通信のためのハードウェアとソフトウェアのサポートによって強化されている。
サーバグレードとコンシューマグレードのGPUは、同様の計算エンベロープを持つことができるが、このようなサポートを持つ"クラウドグレード"サーバの間には、桁違いのコスト差がある。
本稿では,アルゴリズム設計とシステム設計により,コストのかかるハードウェアオーバープロビジョン手法を代替できるかどうかを考察し,通信圧縮のための効率的なソフトウェアサポートを提供するCGXというフレームワークを提案する。
最新のモデルやタスクを完全精度でトレーニングする場合,我々のフレームワークは,8台のNVIDIA RTX 3090 GPUを使用して,コモディティシステム上で2~3倍の自己高速化を実現し,FLOPSに類似のピークを持つNVIDIA DGX-1サーバのスループットを超越することを可能にする。
関連論文リスト
- Exploring GPU-to-GPU Communication: Insights into Supercomputer Interconnects [15.145701300309337]
本稿では,Alps,Leonardo,LUMIの3種類のスーパーコンピュータを特徴付ける。
我々は,最大4096GPU上でのノード内およびノード間相互接続の性能評価に注目する。
その結果,帯域幅が未使用であること,最適化の機会がまだたくさんあることが判明した。
論文 参考訳(メタデータ) (2024-08-26T08:20:50Z) - PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。
PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。
注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文 参考訳(メタデータ) (2023-10-26T19:46:11Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - A Frequency-aware Software Cache for Large Recommendation System
Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。
本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。
提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文 参考訳(メタデータ) (2022-08-08T12:08:05Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - GPU Domain Specialization via Composable On-Package Architecture [0.8240720472180706]
Composable On-Package GPU (COPAGPU)アーキテクチャは、ドメイン特化GPU製品を提供する。
我々は,COPA-GPUが,最大4倍のオフディー帯域幅,32倍のオンパッケージキャッシュ,2.3倍のDRAM帯域幅とキャパシティを備えたベースラインGPUアーキテクチャをモジュール化することにより,DL特化製品を実現する方法を示した。
論文 参考訳(メタデータ) (2021-04-05T23:06:50Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。