論文の概要: High-Performance Training by Exploiting Hot-Embeddings in Recommendation
Systems
- arxiv url: http://arxiv.org/abs/2103.00686v2
- Date: Tue, 2 Mar 2021 19:16:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 12:28:10.141158
- Title: High-Performance Training by Exploiting Hot-Embeddings in Recommendation
Systems
- Title(参考訳): 推薦システムにおけるホットエンベディング活用による高性能トレーニング
- Authors: Muhammad Adnan, Yassaman Ebrahimzadeh Maboud, Divya Mahajan, Prashant
J. Nair
- Abstract要約: 推奨モデルは、電子商取引およびオンライン広告ベースのアプリケーションのためにユーザーに関連アイテムを提案する一般的な学習モデルです。
これらのモデルは大量の埋め込みテーブルを使用して、アイテムとユーザのカテゴリ変数の数値表現を格納する。
これらの競合する計算とメモリの要件のために、推奨モデルのトレーニングプロセスはCPUとGPUに分割されます。
本稿では、スキューテーブルアクセスを活用して、トレーニング中にGPUリソースを効率的に活用する。
- 参考スコア(独自算出の注目度): 2.708848417398231
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recommendation models are commonly used learning models that suggest relevant
items to a user for e-commerce and online advertisement-based applications.
Current recommendation models include deep-learning-based (DLRM) and time-based
sequence (TBSM) models. These models use massive embedding tables to store a
numerical representation of item's and user's categorical variables
(memory-bound) while also using neural networks to generate outputs
(compute-bound). Due to these conflicting compute and memory requirements, the
training process for recommendation models is divided across CPU and GPU for
embedding and neural network executions, respectively. Such a training process
naively assigns the same level of importance to each embedding entry. This
paper observes that some training inputs and their accesses into the embedding
tables are heavily skewed with certain entries being accessed up to 10000x
more. This paper tries to leverage skewed embedded table accesses to
efficiently use the GPU resources during training. To this end, this paper
proposes a Frequently Accessed Embeddings (FAE) framework that exposes a
dynamic knob to the software based on the GPU memory capacity and the input
popularity index. This framework efficiently estimates and varies the size of
the hot portions of the embedding tables within GPUs and reallocates the rest
of the embeddings on the CPU. Overall, our framework speeds-up the training of
the recommendation models on Kaggle, Terabyte, and Alibaba datasets by 2.34x as
compared to a baseline that uses Intel-Xeon CPUs and Nvidia Tesla-V100 GPUs,
while maintaining accuracy.
- Abstract(参考訳): 推奨モデルは、電子商取引およびオンライン広告ベースのアプリケーションのためにユーザーに関連アイテムを提案する一般的な学習モデルです。
現在の推奨モデルには、ディープラーニングベース(DLRM)と時間ベースシーケンス(TBSM)モデルがある。
これらのモデルは、巨大な埋め込みテーブルを使用して、アイテムとユーザのカテゴリ変数(メモリバウンド)の数値表現を格納し、ニューラルネットワークを使用して出力(計算バウンド)を生成する。
これらの競合する計算とメモリの要求のため、レコメンデーションモデルのトレーニングプロセスはそれぞれ、組み込みとニューラルネットワークの実行のためのCPUとGPUに分割される。
このようなトレーニングプロセスは、各埋め込みエントリに同じレベルの重要度を鼻で割り当てる。
本稿では,いくつかの学習入力とその埋め込みテーブルへのアクセスが,最大10000倍以上のエントリがアクセスされることで大きく歪んでいることを観察する。
本稿では、スキューテーブルアクセスを活用して、トレーニング中にGPUリソースを効率的に活用する。
そこで本稿では,gpuメモリ容量と入力人気指数に基づいて動的ノブをソフトウェアに公開する,頻繁にアクセスされる組込み(fae)フレームワークを提案する。
このフレームワークは、GPU内の埋め込みテーブルのホット部分のサイズを効率的に見積もり、変更し、残りの埋め込みをCPUに再配置します。
全体として、我々のフレームワークは、Intel-Xeon CPUとNvidia Tesla-V100 GPUを使用するベースラインと比較して、Kaggle、Terabyte、Alibabaデータセットの推奨モデルのトレーニングを2.34倍高速化し、精度を維持しています。
関連論文リスト
- In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。
リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。
提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2022-11-19T09:57:01Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - A Frequency-aware Software Cache for Large Recommendation System
Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。
本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。
提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文 参考訳(メタデータ) (2022-08-08T12:08:05Z) - Heterogeneous Acceleration Pipeline for Recommendation System Training [1.8457649813040096]
レコメンデーションモデルは、ディープラーニングネットワークと大規模な埋め込みテーブルに依存している。
これらのモデルは一般的に、ハイブリッドGPUまたはGPUのみの設定を使用してトレーニングされる。
本稿ではヘテロジニアスなCPUアクセラレーションパイプラインであるHotlineを紹介する。
論文 参考訳(メタデータ) (2022-04-11T23:10:41Z) - Survey on Large Scale Neural Network Training [48.424512364338746]
現代のディープニューラルネットワーク(DNN)は、トレーニング中にウェイト、アクティベーション、その他の中間テンソルを保存するためにかなりのメモリを必要とする。
この調査は、より効率的なDNNトレーニングを可能にするアプローチの体系的な概要を提供する。
論文 参考訳(メタデータ) (2022-02-21T18:48:02Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - ScaleFreeCTR: MixCache-based Distributed Training System for CTR Models
with Huge Embedding Table [23.264897780201316]
様々なCTR(Deep Click-Through Rate)モデルが工業企業によって商用システムに展開されています。
優れた性能を得るためには、大量のトレーニングデータに基づいて深部CTRモデルを効率的に訓練する必要がある。
ScaleFreeCTR:CTRモデルのためのMixCacheベースの分散トレーニングシステムを提案する。
論文 参考訳(メタデータ) (2021-04-17T13:36:19Z) - Understanding Training Efficiency of Deep Learning Recommendation Models
at Scale [8.731263641794897]
本稿では,リコメンデーションモデルのトレーニングにGPUを使うことの難しさについて説明する。
スケールにおけるハードウェア効率に影響を与える要因と、新しいスケールアップGPUサーバ設計であるZionから学んだこと。
論文 参考訳(メタデータ) (2020-11-11T01:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。