論文の概要: Deep Learning Training on Multi-Instance GPUs
- arxiv url: http://arxiv.org/abs/2209.06018v1
- Date: Tue, 13 Sep 2022 14:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 13:22:15.100527
- Title: Deep Learning Training on Multi-Instance GPUs
- Title(参考訳): マルチインスタンスGPUによるディープラーニング学習
- Authors: Anders Friis Kaas (1), Stilyan Petrov Paleykov (1), Ties Robroek (1),
P{\i}nar T\"oz\"un (1) ((1) IT University of Copenhagen)
- Abstract要約: マルチインスタンスGPU(MIG)はNVIDIAが導入した新しいテクノロジで、GPUを分割してワークロードに適合させることができる。
本稿では,MIG対応A100 GPUの3種類のディープラーニングワークロードにおける性能について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning training is an expensive process that extensively uses GPUs,
but not all model training saturates the modern powerful GPUs. Multi-Instance
GPU (MIG) is a new technology introduced by NVIDIA that can partition a GPU to
better fit workloads that don't require all the memory and compute resources of
a full GPU. In this paper, we examine the performance of a MIG-enabled A100 GPU
under deep learning workloads of three sizes focusing on image recognition
training with ResNet models. We investigate the behavior of these workloads
when running in isolation on a variety of MIG instances allowed by the GPU in
addition to running them in parallel on homogeneous instances co-located on the
same GPU.
Our results demonstrate that employing MIG can significantly improve the
utilization of the GPU when the workload is too small to utilize the whole GPU
in isolation. By training multiple small models in parallel, more work can be
performed by the GPU per unit of time, despite the increase in time-per-epoch,
leading to $\sim$3 times the throughput. In contrast, for medium and
large-sized workloads, which already utilize the whole GPU well on their own,
MIG only provides marginal performance improvements. Nevertheless, we observe
that training models in parallel using separate MIG partitions does not exhibit
interference underlining the value of having a functionality like MIG on modern
GPUs.
- Abstract(参考訳): ディープラーニングトレーニングはGPUを多用する高価なプロセスだが、すべてのモデルトレーニングが現代の強力なGPUを飽和させるわけではない。
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、完全なGPUのメモリと計算リソースをすべて必要としないワークロードに適合するようにGPUを分割することができる。
本稿では,resnetモデルを用いた画像認識トレーニングに着目した3種類の深層学習ワークロードにおけるmig対応a100 gpuの性能について検討する。
同一GPU上で同期した同種インスタンス上で並列に実行するのに加えて,GPUが許可する様々なMIGインスタンス上で分離して実行する場合のワークロードの挙動について検討する。
その結果,作業負荷が小さすぎてGPU全体を独立して利用できない場合,MIGを用いることでGPUの利用効率が大幅に向上することが示された。
複数の小さなモデルを並列にトレーニングすることで、時間当たりの時間の増加にもかかわらず、GPUによってより多くの作業が実行できるようになり、スループットは$\sim$3倍になる。
対照的に、GPU全体を独自に活用している中規模および大規模ワークロードでは、MIGは限界パフォーマンスの改善のみを提供する。
それでも、別々のMIGパーティションを用いた並列トレーニングモデルでは、現代的なGPU上でMIGのような機能を持つことの価値を裏付ける干渉は現れない。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Deep Optimizer States: Towards Scalable Training of Transformer Models Using Interleaved Offloading [2.8231000588510757]
トランスフォーマーと大規模言語モデル(LLM)は、すべてのドメインで急速に採用されている。
変圧器の訓練は非常に高価で、しばしば記憶壁にぶつかる」
本稿では,LLMをCPUまたはGPU上で更新フェーズをスケジュールしたサブグループに分割する手法を提案する。
論文 参考訳(メタデータ) (2024-10-26T00:43:59Z) - Hierarchical Resource Partitioning on Modern GPUs: A Reinforcement Learning Approach [1.076745840431781]
本稿では,階層的分割のセットアップと,与えられたジョブ集合からの協調スケジューリンググループの選択を包括的に協調する手法を提案する。
これにより、時間共有スケジューリングに比べて最大スループットが1.87倍向上する。
論文 参考訳(メタデータ) (2024-05-14T16:40:06Z) - Benchmarking GPUs on SVBRDF Extractor Model [0.0]
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能を区別する。
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能の差別化を試みた。
論文 参考訳(メタデータ) (2023-10-19T17:09:06Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - A Frequency-aware Software Cache for Large Recommendation System
Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。
本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。
提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文 参考訳(メタデータ) (2022-08-08T12:08:05Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。