論文の概要: Spatial Sharing of GPU for Autotuning DNN models
- arxiv url: http://arxiv.org/abs/2008.03602v1
- Date: Sat, 8 Aug 2020 21:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 11:55:44.774668
- Title: Spatial Sharing of GPU for Autotuning DNN models
- Title(参考訳): 自動DNNモデルのためのGPUの空間共有
- Authors: Aditya Dhakal, Junguk Cho, Sameer G. Kulkarni, K. K. Ramakrishnan,
Puneet Sharma
- Abstract要約: ディープニューラルネットワーク(DNN)は、高性能GPUのフルパワーを活用する能力において、多種多様である。
本稿では,資源利用を最大化し,チューニング性能を向上させるための多くの手法を提案する。
- 参考スコア(独自算出の注目度): 4.63732827131233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GPUs are used for training, inference, and tuning the machine learning
models. However, Deep Neural Network (DNN) vary widely in their ability to
exploit the full power of high-performance GPUs. Spatial sharing of GPU enables
multiplexing several DNNs on the GPU and can improve GPU utilization, thus
improving throughput and lowering latency. DNN models given just the right
amount of GPU resources can still provide low inference latency, just as much
as dedicating all of the GPU for their inference task. An approach to improve
DNN inference is tuning of the DNN model. Autotuning frameworks find the
optimal low-level implementation for a certain target device based on the
trained machine learning model, thus reducing the DNN's inference latency and
increasing inference throughput. We observe an interdependency between the
tuned model and its inference latency. A DNN model tuned with specific GPU
resources provides the best inference latency when inferred with close to the
same amount of GPU resources. While a model tuned with the maximum amount of
the GPU's resources has poorer inference latency once the GPU resources are
limited for inference. On the other hand, a model tuned with an appropriate
amount of GPU resources still achieves good inference latency across a wide
range of GPU resource availability. We explore the causes that impact the
tuning of a model at different amounts of GPU resources. We present many
techniques to maximize resource utilization and improve tuning performance. We
enable controlled spatial sharing of GPU to multiplex several tuning
applications on the GPU. We scale the tuning server instances and shard the
tuning model across multiple client instances for concurrent tuning of
different operators of a model, achieving better GPU multiplexing. With our
improvements, we decrease DNN autotuning time by up to 75 percent and increase
throughput by a factor of 5.
- Abstract(参考訳): GPUは、機械学習モデルのトレーニング、推論、チューニングに使用される。
しかし、Deep Neural Network(DNN)は、高性能GPUのフルパワーを活用する能力において、様々な点で異なる。
GPUの空間的共有により、GPU上の複数のDNNの多重化が可能になり、GPU使用率を改善し、スループットを改善し、レイテンシを低減できる。
適切な量のGPUリソースを与えられたDNNモデルは、推論タスクにすべてのGPUを注力するのと同じように、低推論レイテンシを提供することができる。
DNN推論を改善するアプローチとして、DNNモデルのチューニングがある。
自動チューニングフレームワークは、トレーニングされた機械学習モデルに基づいて、特定のターゲットデバイスに対して最適な低レベル実装を見つけることで、DNNの推論レイテンシを低減し、推論スループットを向上する。
チューニングモデルと推論遅延の相互依存性を観察する。
特定のGPUリソースに合わせて調整されたDNNモデルは、同じ量のGPUリソースで推論された場合、最高の推論レイテンシを提供する。
GPUリソースの最大量に合わせて調整されたモデルでは、推論のためにGPUリソースが制限されると、推論レイテンシが低下する。
一方、適切な量のGPUリソースをチューニングしたモデルでは、幅広いGPUリソースの可用性に優れた推論レイテンシが達成されている。
私たちは、異なる量のgpuリソースでモデルのチューニングに影響を与える原因を調べます。
資源利用を最大化し、チューニング性能を向上させるための多くの技術を提案する。
制御されたGPU空間共有により、GPU上の複数のチューニングアプリケーションを多重化することができる。
チューニングサーバインスタンスをスケールし、複数のクライアントインスタンスにまたがってチューニングモデルをシャーディングし、モデルの異なる演算子の同時チューニングを可能にします。
改善により、DNNのオートチューニング時間を最大75%削減し、スループットを5.5%向上させました。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Forecasting GPU Performance for Deep Learning Training and Inference [10.741682409837612]
NeuSightは、トレーニングと推論の両方のために、実際の実行を必要とせずに、見えないGPU上で、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークである。
NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。
GPT3モデルのトレーニングとH100での推論の遅延を予測して、198%と19.7%から3.8%に減少する。
論文 参考訳(メタデータ) (2024-07-18T18:47:52Z) - NeRF-XL: Scaling NeRFs with Multiple GPUs [72.75214892939411]
我々は、複数のGPUにまたがるニューラルラジアンス場(NeRF)を分散する原理的手法であるNeRF-XLを提案する。
パラメータ数を大きくして再構成品質を向上し,GPUの高速化を実現した。
我々は,25km2の都市部をカバーする258K画像を含む,これまでで最大規模のオープンソースデータセットMatrixCityを含む,さまざまなデータセットに対するNeRF-XLの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-24T21:43:15Z) - Benchmarking GPUs on SVBRDF Extractor Model [0.0]
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能を区別する。
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能の差別化を試みた。
論文 参考訳(メタデータ) (2023-10-19T17:09:06Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - A Study on the Intersection of GPU Utilization and CNN Inference [8.084016058894779]
我々は、畳み込みニューラルネットワーク(CNN)の推論時GPU利用を改善する余地があることを示す。
我々は、CNNの推論時GPU利用を改善する余地があり、GPU利用に関する知識は、利用自体をターゲットとしないアプリケーションでさえも恩恵を受ける可能性があることを論じる。
論文 参考訳(メタデータ) (2022-12-15T16:11:40Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Accelerating Multi-Model Inference by Merging DNNs of Different Weights [3.4123736336071864]
我々は,異なる重みと異なる入力を持つ同一アーキテクチャを共有する複数のDNNモデルをマージする手法であるNetFuseを提案する。
ResNet-50、ResNeXt-50、BERT、XLNetの実験によると、NetFuseはNVIDIA V100 GPUでDNN推論時間を最大3.6倍に高速化できる。
論文 参考訳(メタデータ) (2020-09-28T04:33:09Z) - Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。
提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文 参考訳(メタデータ) (2020-06-26T21:03:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。