論文の概要: Building a Performance Model for Deep Learning Recommendation Model
Training on GPUs
- arxiv url: http://arxiv.org/abs/2201.07821v1
- Date: Wed, 19 Jan 2022 19:05:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-22 04:42:41.482450
- Title: Building a Performance Model for Deep Learning Recommendation Model
Training on GPUs
- Title(参考訳): GPUを用いたディープラーニング推薦モデルトレーニングのパフォーマンスモデルの構築
- Authors: Zhongyi Lin and Louis Feng and Ehsan K. Ardestani and Jaewon Lee and
John Lundell and Changkyu Kim and Arun Kejariwal and John D. Owens
- Abstract要約: 我々は、ディープラーニング勧告モデル(DLRM)のGPUトレーニングのためのパフォーマンスモデルを作成する。
デバイスアクティブ時間(カーネルランタイムの総和)とデバイスアイドル時間の両方が、デバイスタイム全体の重要なコンポーネントであることを示す。
本稿では,その実行グラフをトラバースすることで,DLRMのバッチごとのトレーニング時間を予測できるクリティカルパスベースのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 6.05245376098191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We devise a performance model for GPU training of Deep Learning
Recommendation Models (DLRM), whose GPU utilization is low compared to other
well-optimized CV and NLP models. We show that both the device active time (the
sum of kernel runtimes) and the device idle time are important components of
the overall device time. We therefore tackle them separately by (1) flexibly
adopting heuristic-based and ML-based kernel performance models for operators
that dominate the device active time, and (2) categorizing operator overheads
into five types to determine quantitatively their contribution to the device
active time. Combining these two parts, we propose a critical-path-based
algorithm to predict the per-batch training time of DLRM by traversing its
execution graph. We achieve less than 10% geometric mean average error (GMAE)
in all kernel performance modeling, and 5.23% and 7.96% geomean errors for GPU
active time and overall end-to-end per-batch training time prediction,
respectively. We show that our general performance model not only achieves low
prediction error on DLRM, which has highly customized configurations and is
dominated by multiple factors, but also yields comparable accuracy on other
compute-bound ML models targeted by most previous methods. Using this
performance model and graph-level data and task dependency analyses, we show
our system can provide more general model-system co-design than previous
methods.
- Abstract(参考訳): 我々は、他のよく最適化されたCVやNLPモデルと比較してGPU利用率が低いDLRM(Deep Learning Recommendation Models)のGPUトレーニングのパフォーマンスモデルを作成する。
デバイスアクティブタイム(カーネルランタイムの合計)とデバイスアイドルタイムの両方が、デバイス全体のタイムの重要なコンポーネントであることを示す。
そこで我々は,(1)デバイスアクティブタイムを支配するオペレータに対して,ヒューリスティックベースおよびmlベースのカーネルパフォーマンスモデルを柔軟に適用し,(2)オペレーターのオーバーヘッドを5つのタイプに分類し,デバイスアクティブタイムへの貢献度を定量的に決定する。
これら2つの部分を組み合わせることで,実行グラフをトラバースすることでDLRMのバッチごとのトレーニング時間を予測できるクリティカルパスベースのアルゴリズムを提案する。
我々は,すべてのカーネル性能モデルにおいて,幾何平均誤差(GMAE)の10%未満を達成し,GPUのアクティブ時間に対する5.23%と7.96%のジオ平均誤差と,バッチ毎のトレーニング時間全体のエンドツーエンド予測を実現した。
提案手法は,構成が高度にカスタマイズされ,複数の要因が支配されるDLRM上での予測誤差を低く抑えるだけでなく,従来の手法に照らされた他の計算バウンドMLモデルと同等の精度が得られることを示す。
この性能モデルとグラフレベルのデータとタスク依存性分析を用いて,従来の手法よりも汎用的なモデルシステム設計を提供できることを示す。
関連論文リスト
- Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning [6.1339395157466425]
Foundational Deep Learning(DL)モデルは、多種多様で多様なデータセットに基づいてトレーニングされた一般的なモデルである。
本稿では,無線信号を用いた基礎DLモデルの事前学習のための,新しい自己教師型学習手法であるMasked Spectrogram Modelingを紹介する。
論文 参考訳(メタデータ) (2024-11-14T23:56:57Z) - A Cost-Aware Approach to Adversarial Robustness in Neural Networks [1.622320874892682]
本稿では,ハードウェア選択,バッチサイズ,エポック数,テストセット精度の影響を測定するために,高速化された故障時間モデルを提案する。
我々は、複数のGPUタイプを評価し、モデルの堅牢性を最大化し、モデル実行時間を同時に最小化するためにTree Parzen Estimatorを使用します。
論文 参考訳(メタデータ) (2024-09-11T20:43:59Z) - Towards Universal Performance Modeling for Machine Learning Training on Multi-GPU Platforms [4.959530958049395]
我々は,コンピュータシステム上での機械学習(ML)ワークロードのトレーニングパフォーマンスを特徴付けるパイプラインを開発し,予測する。
私たちのパイプラインは、TransformerベースのNLPモデルなど、他のタイプのMLワークロードに一般化されています。
最速の埋め込みテーブルシャーディング構成を素早く選択するような洞察を生成することができる。
論文 参考訳(メタデータ) (2024-04-19T07:20:33Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Structured Cooperative Learning with Graphical Model Priors [98.53322192624594]
ローカルデータに制限のある分散デバイス上で、さまざまなタスクに対してパーソナライズされたモデルをトレーニングする方法を研究する。
本稿では,デバイス間の協調グラフをグラフィカルモデルにより生成する「構造化協調学習(SCooL)」を提案する。
SCooLを評価し,既存の分散学習手法と比較した。
論文 参考訳(メタデータ) (2023-06-16T02:41:31Z) - Towards a learning-based performance modeling for accelerating Deep
Neural Networks [1.1549572298362785]
我々は、畳み込みニューラルネットワーク(CNN)を最適化するために、機械学習技術に基づく予測モデルの調査を開始する。
MidgardベースのARM Mali GPUの予備実験では、我々の予測モデルはライブラリが手作業で選択したすべての畳み込み演算子よりも優れていた。
論文 参考訳(メタデータ) (2022-12-09T18:28:07Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Using Graph Neural Networks to model the performance of Deep Neural
Networks [2.1151356984322307]
グラフ表現を取り入れた新しいパフォーマンスモデルを開発した。
実験により,HalideモデルとTVMモデルと比較すると,予測誤差が7:75x,12x減少した。
論文 参考訳(メタデータ) (2021-08-27T20:20:17Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。