Fugu-MT 論文翻訳(概要): Data-driven Forecasting of Deep Learning Performance on GPUs

論文の概要: Data-driven Forecasting of Deep Learning Performance on GPUs

arxiv url: http://arxiv.org/abs/2407.13853v1
Date: Thu, 18 Jul 2024 18:47:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 21:29:41.781131
Title: Data-driven Forecasting of Deep Learning Performance on GPUs
Title（参考訳）: データ駆動型GPUによるディープラーニング性能予測
Authors: Seonho Lee, Amar Phanishayee, Divya Mahajan,
Abstract要約: NeuSightは、トレーニングと推論の両方のために、実際の実行を必要とせずに、見えないGPU上で、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークである。 NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。 GPT3モデルのトレーニングとH100での推論の遅延を予測して、198%と19.7%から3.8%に減少する。
参考スコア（独自算出の注目度）: 10.741682409837612
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning kernels exhibit predictable memory accesses and compute patterns, making GPUs' parallel architecture well-suited for their execution. Software and runtime systems for GPUs are optimized to better utilize the stream multiprocessors, on-chip cache, and off-chip high-bandwidth memory. As deep learning models and GPUs evolve, access to newer GPUs is often limited, raising questions about the performance of new model architectures on existing GPUs, existing models on new GPUs, and new model architectures on new GPUs. To address these questions, we introduce NeuSight, a framework to predict the performance of various deep learning models, for both training and inference, on unseen GPUs without requiring actual execution. The framework leverages both GPU hardware behavior and software library optimizations to estimate end-to-end performance. Previous work uses regression models that capture linear trends or multilayer perceptrons to predict the overall latency of deep learning kernels on GPUs. These approaches suffer from higher error percentages when forecasting performance on unseen models and new GPUs. Instead, NeuSight decomposes the prediction problem into smaller problems, bounding the prediction through fundamental performance laws. NeuSight decomposes a single deep learning kernel prediction into smaller working sets called tiles, which are executed independently on the GPU. Tile-granularity predictions are determined using a machine learning approach and aggregated to estimate end-to-end latency. NeuSight outperforms prior work across various deep learning workloads and the latest GPUs. It reduces the percentage error from 198% and 19.7% to 3.8% in predicting the latency of GPT3 model for training and inference on H100, compared to state-of-the-art prior works, where both GPT3 and H100 were not used to train the framework.
Abstract（参考訳）: ディープラーニングカーネルは予測可能なメモリアクセスと計算パターンを示し、GPUの並列アーキテクチャがその実行に適している。 GPU用のソフトウェアとランタイムシステムは、ストリームマルチプロセッサ、オンチップキャッシュ、オフチップの高帯域メモリをよりよく活用するように最適化されている。ディープラーニングモデルとGPUが進化するにつれて、新しいGPUへのアクセスは制限され、既存のGPU上の新しいモデルアーキテクチャのパフォーマンス、新しいGPU上の既存のモデル、新しいGPU上の新しいモデルアーキテクチャに関する疑問が提起される。これらの問題に対処するために、我々は、実際の実行を必要とせずに、未確認のGPU上で、トレーニングと推論の両方のために、さまざまなディープラーニングモデルのパフォーマンスを予測するフレームワークであるNeuSightを紹介した。このフレームワークはGPUハードウェアの動作とソフトウェアライブラリの最適化の両方を活用して、エンドツーエンドのパフォーマンスを推定する。これまでの作業では、線形トレンドや多層パーセプトロンをキャプチャする回帰モデルを使用して、GPU上のディープラーニングカーネルの全体的なレイテンシを予測する。これらのアプローチは、目に見えないモデルと新しいGPUのパフォーマンスを予測する際に、より高いエラー率に悩まされる。代わりに、NeuSightは予測問題をより小さな問題に分解し、基本的な性能法則を通じて予測を束縛する。 NeuSightは、単一のディープラーニングカーネル予測をタイルと呼ばれる小さなワーキングセットに分解し、GPU上で独立して実行される。タイルの粒度予測は機械学習アプローチを用いて決定され、エンドツーエンドのレイテンシを推定するために集約される。 NeuSightは、さまざまなディープラーニングワークロードや最新のGPUで、これまでの作業よりも優れています。これは、GPT3とH100の両方がフレームワークのトレーニングに使用されていない最先端の以前の作業と比較して、H100のトレーニングと推論のためのGPT3モデルの遅延を予測する場合に、198%と19.7%から3.8%に誤差を減少させる。

関連論文リスト

Omniwise: Predicting GPU Kernels Performance with LLMs [0.06666419797034795]
Omniwiseは、GPUカーネルのパフォーマンス予測に大規模言語モデル(LLM)を適用する、エンド・ツー・エンドの自己教師型微調整パイプラインである。メモリ帯域幅、キャッシュヒット率、GFLOP、演算強度などの重要なパフォーマンス指標を、コード実行やプロファイリングツールを必要とせずに、カーネルコードから直接予測することができる。提案手法は,AMD MI250およびMI300Xアーキテクチャ上で実行されるGPUカーネル上での相対誤差の10%以内の予測を90%以上達成する。
論文参考訳（メタデータ） (2025-06-25T23:36:44Z)
NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
Accurate GPU Memory Prediction for Deep Learning Jobs through Dynamic Analysis [0.3867363075280544]
メモリ外エラーは、モデルトレーニングと効率的なリソース利用にとって主要な障害となる。 VeritasEstは完全にCPUベースの分析ツールで、ディープラーニングのトレーニングタスクに必要なピークGPUメモリを正確に予測することができる。その性能は、畳み込みニューラルネットワーク(CNN)モデルにわたる数千の実験的な実行を通じて検証された。
論文参考訳（メタデータ） (2025-04-04T19:20:03Z)
HeterMoE: Efficient Training of Mixture-of-Experts Models on Heterogeneous GPUs [26.00138507762884]
HeterMoEは、異種GPU上でMoEモデルを効率的にトレーニングするシステムである。 HeterMoEは既存のMoEトレーニングシステムと比較して最大2.3倍のスピードアップを実現している。
論文参考訳（メタデータ） (2025-04-04T18:55:52Z)
SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文参考訳（メタデータ） (2024-03-25T15:26:50Z)
PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。 PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文参考訳（メタデータ） (2023-10-26T19:46:11Z)
Benchmarking GPUs on SVBRDF Extractor Model [0.0]
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能を区別する。本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能の差別化を試みた。
論文参考訳（メタデータ） (2023-10-19T17:09:06Z)
DistTGL: Distributed Memory-Based Temporal Graph Neural Network Training [18.52206409432894]
DistTGLは、分散GPUクラスタ上でメモリベースのTGNNをトレーニングするための、効率的でスケーラブルなソリューションである。実験では、DistTGLはほぼ直線収束のスピードアップを実現し、最先端のシングルマシン法を14.5%、トレーニングスループットは10.17倍に向上した。
論文参考訳（メタデータ） (2023-07-14T22:52:27Z)
Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文参考訳（メタデータ） (2022-12-28T18:59:28Z)
Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。本稿では,これらのボトルネックを緩和する一連の改良点について述べる。また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文参考訳（メタデータ） (2021-10-16T02:41:35Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
Computational Performance Predictions for Deep Neural Network Training: A Runtime-Based Approach [1.5857983167543392]
本稿では,ユーザが情報と費用効率のよいGPU選択を行うための,新しい実践手法を提案する。我々は、(i)ウェーブスケーリング、または(ii)GPUの実行モデルに基づく技術、または(ii)事前訓練されたマルチレイヤーパーセプトロンを用いて、トレーニングイテレーション中の各操作の実行時間を1つのGPUから別のGPUにスケーリングすることで予測を行う。この手法をSurferというPythonライブラリに実装し、ResNet-50、Inception v3、Transformer、GNMT、DCGANで正確なイテレーション実行時間予測を行う。
論文参考訳（メタデータ） (2021-01-31T20:17:46Z)
Understanding Training Efficiency of Deep Learning Recommendation Models at Scale [8.731263641794897]
本稿では,リコメンデーションモデルのトレーニングにGPUを使うことの難しさについて説明する。スケールにおけるハードウェア効率に影響を与える要因と、新しいスケールアップGPUサーバ設計であるZionから学んだこと。
論文参考訳（メタデータ） (2020-11-11T01:21:43Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)
MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文参考訳（メタデータ） (2020-04-16T16:20:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。