論文の概要: RecD: Deduplication for End-to-End Deep Learning Recommendation Model
Training Infrastructure
- arxiv url: http://arxiv.org/abs/2211.05239v3
- Date: Wed, 26 Apr 2023 00:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 18:07:28.239864
- Title: RecD: Deduplication for End-to-End Deep Learning Recommendation Model
Training Infrastructure
- Title(参考訳): RecD:Deep-to-Endディープラーニング推奨モデルトレーニングインフラストラクチャの重複
- Authors: Mark Zhao, Dhruv Choudhary, Devashish Tyagi, Ajay Somani, Max Kaplan,
Sung-Han Lin, Sarunya Pumma, Jongsoo Park, Aarti Basant, Niket Agarwal,
Carole-Jean Wu, Christos Kozyrakis
- Abstract要約: RecDは、産業規模のDLRMトレーニングデータセットに固有の機能の重複に起因する膨大なストレージ、前処理、トレーニングオーバーヘッドに対処する。
本稿では,産業規模のDLRMトレーニングシステムにおいて,RecDが最大2.48倍,1.79倍,3.71倍のスループットとストレージ効率を向上させる方法を示す。
- 参考スコア(独自算出の注目度): 3.991664287163157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present RecD (Recommendation Deduplication), a suite of end-to-end
infrastructure optimizations across the Deep Learning Recommendation Model
(DLRM) training pipeline. RecD addresses immense storage, preprocessing, and
training overheads caused by feature duplication inherent in industry-scale
DLRM training datasets. Feature duplication arises because DLRM datasets are
generated from interactions. While each user session can generate multiple
training samples, many features' values do not change across these samples. We
demonstrate how RecD exploits this property, end-to-end, across a deployed
training pipeline. RecD optimizes data generation pipelines to decrease dataset
storage and preprocessing resource demands and to maximize duplication within a
training batch. RecD introduces a new tensor format, InverseKeyedJaggedTensors
(IKJTs), to deduplicate feature values in each batch. We show how DLRM model
architectures can leverage IKJTs to drastically increase training throughput.
RecD improves the training and preprocessing throughput and storage efficiency
by up to 2.48x, 1.79x, and 3.71x, respectively, in an industry-scale DLRM
training system.
- Abstract(参考訳): 本稿では,DLRM(Deep Learning Recommendation Model)トレーニングパイプライン間のエンドツーエンドインフラストラクチャ最適化スイートであるRecD(Recommendation Deduplication)を紹介する。
RecDは、産業規模のDLRMトレーニングデータセットに固有の機能の重複に起因する膨大なストレージ、前処理、トレーニングオーバーヘッドに対処する。
DLRMデータセットは相互作用から生成されるため、特徴重複が発生する。
各ユーザセッションは複数のトレーニングサンプルを生成することができるが、多くの機能の価値はこれらのサンプル間で変化しない。
recdがこのプロパティをエンドツーエンドで,デプロイされたトレーニングパイプラインを通じてどのように活用しているかを実証する。
RecDはデータセットストレージの削減とリソース要求の事前処理、トレーニングバッチ内の重複の最大化のために、データ生成パイプラインを最適化する。
RecDは新しいテンソルフォーマット、InverseKeyedJaggedTensors (IKJTs)を導入し、各バッチで機能値の重複を解消した。
DLRMモデルアーキテクチャがIKJTを活用してトレーニングスループットを大幅に向上させる方法を示す。
recdは業界規模のdlrmトレーニングシステムにおいて,最大2.48x,1.79x,3.71xのトレーニングと前処理スループットとストレージ効率を向上させる。
関連論文リスト
- Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - ReCycle: Resilient Training of Large DNNs using Pipeline Adaptation [2.0181279529015925]
ReCycleは、障害発生時の効率的なトレーニング用に設計されたシステムである。
分散トレーニングシステムに固有の機能的冗長性を活用する。
複数の障害で高いトレーニングスループットを実現していることを示す。
論文 参考訳(メタデータ) (2024-05-22T21:35:56Z) - RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:16:26Z) - InTune: Reinforcement Learning-based Data Pipeline Optimization for Deep
Recommendation Models [3.7414278978078204]
深層学習に基づくレコメンデータモデル(DLRM)は多くの現代のレコメンデータシステムにおいて重要なコンポーネントとなっている。
典型的なディープラーニングトレーニングジョブはモデル実行に支配されているが、DLRMトレーニングパフォーマンスの最も重要な要素は、しばしばオンラインデータの取り込みである。
論文 参考訳(メタデータ) (2023-08-13T18:28:56Z) - DLRover-RM: Resource Optimization for Deep Recommendation Models Training in the Cloud [13.996191403653754]
ディープラーニングモデル(DLRM)は、スパース機能を管理するために大きな埋め込みテーブルに依存している。
このような埋め込みテーブルの拡張は、モデルパフォーマンスを大幅に向上させるが、GPU/CPU/メモリ使用量の増加を犠牲にする。
テクノロジ企業は、DLRMモデルを大規模にトレーニングするための、広範なクラウドベースのサービスを構築している。
DLRMのための弾性トレーニングフレームワークであるDLRover-RMを導入し,資源利用量を増やし,クラウド環境の不安定性に対処する。
論文 参考訳(メタデータ) (2023-04-04T02:13:46Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Multi-Domain Joint Training for Person Re-Identification [51.73921349603597]
ReID(Deep Learning-based person Re-IDentification)は、優れたパフォーマンスを達成するために、大量のトレーニングデータを必要とすることが多い。
多様な環境からより多くのトレーニングデータを集めることで、ReIDのパフォーマンスが向上する傾向にある。
本稿では,パラメータを様々な要因に適応させることができる,Domain-Camera-Sample Dynamic Network (DCSD) というアプローチを提案する。
論文 参考訳(メタデータ) (2022-01-06T09:20:59Z) - Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。
最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。
提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文 参考訳(メタデータ) (2021-11-26T18:44:59Z) - Understanding and Co-designing the Data Ingestion Pipeline for
Industry-Scale RecSys Training [5.058493679956239]
本稿では,産業規模のレコメンデーションモデルトレーニングにおけるデータ取り込み課題について概説する。
まず、データセットのストレージ要件は巨大で可変であり、ローカルストレージ容量を超える。
第二に、データの読み込みと前処理は計算コストが高く、トレーナー自身よりも計算量、メモリ、ネットワークリソースがかなり必要になります。
データ前処理サービス(Data PreProcessing Service, DPP)は、数百のノードにスケール可能な、完全に分離された前処理サービスである。
論文 参考訳(メタデータ) (2021-08-20T21:09:34Z) - ECRM: Efficient Fault Tolerance for Recommendation Model Training via
Erasure Coding [1.418033127602866]
ディープラーニングレコメンデーションモデル(DLRM)は、パーソナライズされたコンテンツをユーザに提供するために広くデプロイされている。
DLRMは、大きな埋め込みテーブルを使用するため、サイズが大きく、数十から数百のサーバのメモリにモデルを分散させることによって訓練される。
チェックポイントは、これらのシステムでフォールトトレランスに使用される主要なアプローチであるが、かなりのトレーニング時間のオーバーヘッドを負う。
論文 参考訳(メタデータ) (2021-04-05T16:16:19Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。