論文の概要: DIPPM: a Deep Learning Inference Performance Predictive Model using
Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2303.11733v1
- Date: Tue, 21 Mar 2023 10:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 15:34:32.900322
- Title: DIPPM: a Deep Learning Inference Performance Predictive Model using
Graph Neural Networks
- Title(参考訳): DIPPM:グラフニューラルネットワークを用いたディープラーニング推論性能予測モデル
- Authors: Karthick Panner Selvam and Mats Brorsson
- Abstract要約: 我々は、NVIDIA A100 GPU上で与えられた入力DLモデルの推論遅延、エネルギー、メモリ使用量を予測するDL推論性能予測モデル(DIPPM)を開発した。
また、DIPPMの出力から適切なA100 Multi-Instance GPUプロファイルを提案するアルゴリズムを考案した。
我々のDIPPMは、適切なハードウェア構成を見つけるのに役立つだけでなく、モデルの推論性能の迅速な設計空間探索にも役立ちます。
- 参考スコア(独自算出の注目度): 0.0571097144710995
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Learning (DL) has developed to become a corner-stone in many everyday
applications that we are now relying on. However, making sure that the DL model
uses the underlying hardware efficiently takes a lot of effort. Knowledge about
inference characteristics can help to find the right match so that enough
resources are given to the model, but not too much. We have developed a DL
Inference Performance Predictive Model (DIPPM) that predicts the inference
latency, energy, and memory usage of a given input DL model on the NVIDIA A100
GPU. We also devised an algorithm to suggest the appropriate A100
Multi-Instance GPU profile from the output of DIPPM. We developed a methodology
to convert DL models expressed in multiple frameworks to a generalized graph
structure that is used in DIPPM. It means DIPPM can parse input DL models from
various frameworks. Our DIPPM can be used not only helps to find suitable
hardware configurations but also helps to perform rapid design-space
exploration for the inference performance of a model. We constructed a graph
multi-regression dataset consisting of 10,508 different DL models to train and
evaluate the performance of DIPPM, and reached a resulting Mean Absolute
Percentage Error (MAPE) as low as 1.9%.
- Abstract(参考訳): ディープラーニング(DL)は、私たちが現在依存している多くの日常アプリケーションにおいて、基盤となるように開発されています。
しかし、DLモデルが基盤となるハードウェアを効率的に使用するようにするためには、多くの労力がかかります。
推論特性に関する知識は、モデルに十分なリソースが与えられるように適切なマッチングを見つけるのに役立つが、あまり多くはない。
我々は、NVIDIA A100 GPU上で与えられた入力DLモデルの推論遅延、エネルギー、メモリ使用量を予測するDL推論性能予測モデル(DIPPM)を開発した。
また、DIPPMの出力から適切なA100 Multi-Instance GPUプロファイルを提案するアルゴリズムを考案した。
複数のフレームワークで表現されたDLモデルをDIPPMで使用される一般化グラフ構造に変換する手法を開発した。
つまり、DIPPMは様々なフレームワークから入力DLモデルを解析できる。
我々のDIPPMは、適切なハードウェア構成を見つけるのに役立つだけでなく、モデルの推論性能の迅速な設計空間探索にも役立ちます。
我々は10,508種類のdlモデルからなるグラフマルチレグレッションデータセットを構築し、dipmの性能をトレーニングし、評価し、結果平均絶対パーセンテージエラー(mape)を1.9%以下に到達した。
関連論文リスト
- Automated Deep Learning Optimization via DSL-Based Source Code Transformation [7.354658720681809]
本稿では,Adopterという,ディープラーニングによるOPTimizationの自動化手法を提案する。
DLモデルアーキテクチャを表現し、このDSLを利用してモデル変換ルールを指定する。
Adopterは、それぞれ3%と56%の精度とリコールを改善するのに役立ちます。
論文 参考訳(メタデータ) (2024-05-05T22:23:14Z) - The Case for Co-Designing Model Architectures with Hardware [13.022505733049597]
ユーザがトランスモデルのランタイムパフォーマンスを最大化するためのガイドラインのセットを提供する。
効率的なモデル形状を持つモデルのスループットは、最大で39%高くなっています。
論文 参考訳(メタデータ) (2024-01-25T19:50:31Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文 参考訳(メタデータ) (2023-12-09T04:43:49Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - Building a Performance Model for Deep Learning Recommendation Model
Training on GPUs [6.05245376098191]
我々は、ディープラーニング勧告モデル(DLRM)のGPUトレーニングのためのパフォーマンスモデルを作成する。
デバイスアクティブ時間(カーネルランタイムの総和)とデバイスアイドル時間の両方が、デバイスタイム全体の重要なコンポーネントであることを示す。
本稿では,その実行グラフをトラバースすることで,DLRMのバッチごとのトレーニング時間を予測できるクリティカルパスベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-19T19:05:42Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。