Fugu-MT 論文翻訳(概要): DIPPM: a Deep Learning Inference Performance Predictive Model using Graph Neural Networks

論文の概要: DIPPM: a Deep Learning Inference Performance Predictive Model using Graph Neural Networks

arxiv url: http://arxiv.org/abs/2303.11733v1
Date: Tue, 21 Mar 2023 10:43:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-22 15:34:32.900322
Title: DIPPM: a Deep Learning Inference Performance Predictive Model using Graph Neural Networks
Title（参考訳）: DIPPM:グラフニューラルネットワークを用いたディープラーニング推論性能予測モデル
Authors: Karthick Panner Selvam and Mats Brorsson
Abstract要約: 我々は、NVIDIA A100 GPU上で与えられた入力DLモデルの推論遅延、エネルギー、メモリ使用量を予測するDL推論性能予測モデル(DIPPM)を開発した。また、DIPPMの出力から適切なA100 Multi-Instance GPUプロファイルを提案するアルゴリズムを考案した。我々のDIPPMは、適切なハードウェア構成を見つけるのに役立つだけでなく、モデルの推論性能の迅速な設計空間探索にも役立ちます。
参考スコア（独自算出の注目度）: 0.0571097144710995
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Deep Learning (DL) has developed to become a corner-stone in many everyday applications that we are now relying on. However, making sure that the DL model uses the underlying hardware efficiently takes a lot of effort. Knowledge about inference characteristics can help to find the right match so that enough resources are given to the model, but not too much. We have developed a DL Inference Performance Predictive Model (DIPPM) that predicts the inference latency, energy, and memory usage of a given input DL model on the NVIDIA A100 GPU. We also devised an algorithm to suggest the appropriate A100 Multi-Instance GPU profile from the output of DIPPM. We developed a methodology to convert DL models expressed in multiple frameworks to a generalized graph structure that is used in DIPPM. It means DIPPM can parse input DL models from various frameworks. Our DIPPM can be used not only helps to find suitable hardware configurations but also helps to perform rapid design-space exploration for the inference performance of a model. We constructed a graph multi-regression dataset consisting of 10,508 different DL models to train and evaluate the performance of DIPPM, and reached a resulting Mean Absolute Percentage Error (MAPE) as low as 1.9%.
Abstract（参考訳）: ディープラーニング(DL)は、私たちが現在依存している多くの日常アプリケーションにおいて、基盤となるように開発されています。しかし、DLモデルが基盤となるハードウェアを効率的に使用するようにするためには、多くの労力がかかります。推論特性に関する知識は、モデルに十分なリソースが与えられるように適切なマッチングを見つけるのに役立つが、あまり多くはない。我々は、NVIDIA A100 GPU上で与えられた入力DLモデルの推論遅延、エネルギー、メモリ使用量を予測するDL推論性能予測モデル(DIPPM)を開発した。また、DIPPMの出力から適切なA100 Multi-Instance GPUプロファイルを提案するアルゴリズムを考案した。複数のフレームワークで表現されたDLモデルをDIPPMで使用される一般化グラフ構造に変換する手法を開発した。つまり、DIPPMは様々なフレームワークから入力DLモデルを解析できる。我々のDIPPMは、適切なハードウェア構成を見つけるのに役立つだけでなく、モデルの推論性能の迅速な設計空間探索にも役立ちます。我々は10,508種類のdlモデルからなるグラフマルチレグレッションデータセットを構築し、dipmの性能をトレーニングし、評価し、結果平均絶対パーセンテージエラー(mape)を1.9%以下に到達した。

関連論文リスト

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。我々は、Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B)とLlama-3.3-Nemotron-49Bという2つの公開モデルを通して、我々のフレームワークの影響を実証する。
論文参考訳（メタデータ） (2024-11-28T13:45:42Z)
DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [59.96455188197593]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。 DRPruningは、トレーニング中にデータ分散を動的に調整し、不均一なマルチタスクデータ間でのバランス性能を回復する手法である。単言語および多言語設定の実験では、DRPランニングはプルーニングと継続トレーニングの両方において同様の大きさのモデルを上回ることが示されている。
論文参考訳（メタデータ） (2024-11-21T12:02:39Z)
Automated Deep Learning Optimization via DSL-Based Source Code Transformation [7.354658720681809]
本稿では,Adopterという,ディープラーニングによるOPTimizationの自動化手法を提案する。 DLモデルアーキテクチャを表現し、このDSLを利用してモデル変換ルールを指定する。 Adopterは、それぞれ3%と56%の精度とリコールを改善するのに役立ちます。
論文参考訳（メタデータ） (2024-05-05T22:23:14Z)
The Case for Co-Designing Model Architectures with Hardware [13.022505733049597]
ユーザがトランスモデルのランタイムパフォーマンスを最大化するためのガイドラインのセットを提供する。効率的なモデル形状を持つモデルのスループットは、最大で39%高くなっています。
論文参考訳（メタデータ） (2024-01-25T19:50:31Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Identifying and Mitigating Model Failures through Few-shot CLIP-aided Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文参考訳（メタデータ） (2023-12-09T04:43:49Z)
Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文参考訳（メタデータ） (2023-05-27T02:28:10Z)
Slapo: A Schedule Language for Progressive Optimization of Large Deep Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。 SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文参考訳（メタデータ） (2023-02-16T00:34:53Z)
Building a Performance Model for Deep Learning Recommendation Model Training on GPUs [6.05245376098191]
我々は、ディープラーニング勧告モデル(DLRM)のGPUトレーニングのためのパフォーマンスモデルを作成する。デバイスアクティブ時間(カーネルランタイムの総和)とデバイスアイドル時間の両方が、デバイスタイム全体の重要なコンポーネントであることを示す。本稿では,その実行グラフをトラバースすることで,DLRMのバッチごとのトレーニング時間を予測できるクリティカルパスベースのアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-01-19T19:05:42Z)
Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。我々の手法は古典的DPベースの推論に広く適用できる。また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文参考訳（メタデータ） (2021-12-07T11:26:41Z)
M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文参考訳（メタデータ） (2021-10-08T04:24:51Z)
LaDDer: Latent Data Distribution Modelling with a Generative Prior [21.27563489899532]
変分オートエンコーダフレームワークにおける遅延データ分布の正確なモデリングを実現するため,LaDDerを提案する。 LaDDerはメタ埋め込みの概念で、複数のVAEモデルを使用して埋め込みの埋め込みを学ぶ。本稿では,LaDDerモデルを用いて複雑な潜伏分布を正確に推定し,表現品質の向上を図っている。
論文参考訳（メタデータ） (2020-08-31T20:10:01Z)
Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できるこのモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文参考訳（メタデータ） (2020-03-13T13:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。