論文の概要: GPU Domain Specialization via Composable On-Package Architecture
- arxiv url: http://arxiv.org/abs/2104.02188v1
- Date: Mon, 5 Apr 2021 23:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 13:50:15.199092
- Title: GPU Domain Specialization via Composable On-Package Architecture
- Title(参考訳): 構成可能なオンパッケージアーキテクチャによるGPUドメインの特殊化
- Authors: Yaosheng Fu, Evgeny Bolotin, Niladrish Chatterjee, David Nellans,
Stephen W. Keckler
- Abstract要約: Composable On-Package GPU (COPAGPU)アーキテクチャは、ドメイン特化GPU製品を提供する。
我々は,COPA-GPUが,最大4倍のオフディー帯域幅,32倍のオンパッケージキャッシュ,2.3倍のDRAM帯域幅とキャパシティを備えたベースラインGPUアーキテクチャをモジュール化することにより,DL特化製品を実現する方法を示した。
- 参考スコア(独自算出の注目度): 0.8240720472180706
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As GPUs scale their low precision matrix math throughput to boost deep
learning (DL) performance, they upset the balance between math throughput and
memory system capabilities. We demonstrate that converged GPU design trying to
address diverging architectural requirements between FP32 (or larger) based HPC
and FP16 (or smaller) based DL workloads results in sub-optimal configuration
for either of the application domains. We argue that a Composable On-PAckage
GPU (COPAGPU) architecture to provide domain-specialized GPU products is the
most practical solution to these diverging requirements. A COPA-GPU leverages
multi-chip-module disaggregation to support maximal design reuse, along with
memory system specialization per application domain. We show how a COPA-GPU
enables DL-specialized products by modular augmentation of the baseline GPU
architecture with up to 4x higher off-die bandwidth, 32x larger on-package
cache, 2.3x higher DRAM bandwidth and capacity, while conveniently supporting
scaled-down HPC-oriented designs. This work explores the microarchitectural
design necessary to enable composable GPUs and evaluates the benefits
composability can provide to HPC, DL training, and DL inference. We show that
when compared to a converged GPU design, a DL-optimized COPA-GPU featuring a
combination of 16x larger cache capacity and 1.6x higher DRAM bandwidth scales
per-GPU training and inference performance by 31% and 35% respectively and
reduces the number of GPU instances by 50% in scale-out training scenarios.
- Abstract(参考訳): gpuが低精度マトリックス計算スループットをスケールしてディープラーニング(dl)パフォーマンスを向上させると、計算スループットとメモリシステム能力のバランスが低下する。
我々は、FP32ベースのHPCとFP16ベースのDLワークロード間のアーキテクチャ要件のばらつきに対処しようとする収束GPU設計が、いずれかのアプリケーションドメインに対する準最適構成をもたらすことを実証した。
我々は、ドメイン特化GPU製品を提供するためのComposable On-Package GPU (COPAGPU)アーキテクチャが、これらの分散要求に対する最も実用的な解決策であると主張している。
COPA-GPUはマルチチップモジュールのデアグリゲーションを利用して、アプリケーションドメインごとのメモリシステムの特殊化とともに、最大設計再利用をサポートする。
我々は,COPA-GPUが,最大4倍のオフディー帯域幅,32倍のオンパッケージキャッシュ,2.3倍のDRAM帯域幅と容量を有するベースラインGPUアーキテクチャをモジュール化することにより,DL特化製品を実現する方法を示す。
本研究では,構成可能なGPUを実現するために必要なマイクロアーキテクチャ設計について検討し,HPC,DLトレーニング,DL推論にコンポーザビリティがもたらすメリットを評価する。
収束GPU設計と比較して、DL最適化COPA-GPUは16倍のキャッシュ容量と1.6倍のDRAM帯域幅でGPU毎のトレーニングと推論性能をそれぞれ31%と35%削減し、スケールアウトトレーニングシナリオにおいてGPUインスタンスの数を50%削減した。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Multi-GPU RI-HF Energies and Analytic Gradients $-$ Towards High Throughput Ab Initio Molecular Dynamics [0.0]
本稿では,複数グラフィクス処理ユニット(GPU)を用いた高次ハートリー・フォックエネルギーと解析勾配の解法を最適化したアルゴリズムと実装を提案する。
このアルゴリズムは特に、中小分子(10-100原子)の高スループット初期分子動力学シミュレーションのために設計されている。
論文 参考訳(メタデータ) (2024-07-29T00:14:10Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - A Frequency-aware Software Cache for Large Recommendation System
Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。
本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。
提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文 参考訳(メタデータ) (2022-08-08T12:08:05Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Project CGX: Scalable Deep Learning on Commodity GPUs [17.116792714097738]
本稿では,ハードウェアオーバープロビジョンがアルゴリズムとシステム設計によって置き換えられるかを検討する。
本稿では,通信圧縮のための効率的なソフトウェアサポートを提供するCGXというフレームワークを提案する。
このフレームワークは、コンシューマグレードのマルチGPUシステムから通信ボトルネックを取り除くことができる。
論文 参考訳(メタデータ) (2021-11-16T17:00:42Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。