論文の概要: DLRover-RM: Resource Optimization for Deep Recommendation Models Training in the Cloud
- arxiv url: http://arxiv.org/abs/2304.01468v2
- Date: Fri, 28 Jun 2024 09:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 22:23:58.536272
- Title: DLRover-RM: Resource Optimization for Deep Recommendation Models Training in the Cloud
- Title(参考訳): DLRover-RM:クラウドにおける深層推薦モデルの資源最適化
- Authors: Qinlong Wang, Tingfeng Lan, Yinghao Tang, Ziling Huang, Yiheng Du, Haitao Zhang, Jian Sha, Hui Lu, Yuanchun Zhou, Ke Zhang, Mingjie Tang,
- Abstract要約: ディープラーニングモデル(DLRM)は、スパース機能を管理するために大きな埋め込みテーブルに依存している。
このような埋め込みテーブルの拡張は、モデルパフォーマンスを大幅に向上させるが、GPU/CPU/メモリ使用量の増加を犠牲にする。
テクノロジ企業は、DLRMモデルを大規模にトレーニングするための、広範なクラウドベースのサービスを構築している。
DLRMのための弾性トレーニングフレームワークであるDLRover-RMを導入し,資源利用量を増やし,クラウド環境の不安定性に対処する。
- 参考スコア(独自算出の注目度): 13.996191403653754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning recommendation models (DLRM) rely on large embedding tables to manage categorical sparse features. Expanding such embedding tables can significantly enhance model performance, but at the cost of increased GPU/CPU/memory usage. Meanwhile, tech companies have built extensive cloud-based services to accelerate training DLRM models at scale. In this paper, we conduct a deep investigation of the DLRM training platforms at AntGroup and reveal two critical challenges: low resource utilization due to suboptimal configurations by users and the tendency to encounter abnormalities due to an unstable cloud environment. To overcome them, we introduce DLRover-RM, an elastic training framework for DLRMs designed to increase resource utilization and handle the instability of a cloud environment. DLRover-RM develops a resource-performance model by considering the unique characteristics of DLRMs and a three-stage heuristic strategy to automatically allocate and dynamically adjust resources for DLRM training jobs for higher resource utilization. Further, DLRover-RM develops multiple mechanisms to ensure efficient and reliable execution of DLRM training jobs. Our extensive evaluation shows that DLRover-RM reduces job completion times by 31%, increases the job completion rate by 6%, enhances CPU usage by 15%, and improves memory utilization by 20%, compared to state-of-the-art resource scheduling frameworks. DLRover-RM has been widely deployed at AntGroup and processes thousands of DLRM training jobs on a daily basis. DLRover-RM is open-sourced and has been adopted by 10+ companies.
- Abstract(参考訳): ディープラーニングレコメンデーションモデル(DLRM)は、分類的スパース機能を管理するために大きな埋め込みテーブルに依存している。
このような埋め込みテーブルの拡張は、モデルパフォーマンスを大幅に向上させるが、GPU/CPU/メモリ使用量の増加を犠牲にする。
一方、IT企業はDLRMモデルの大規模トレーニングを加速するために、広範なクラウドベースのサービスを構築している。
本稿では,AntGroupにおけるDLRMトレーニングプラットフォームを深く調査し,ユーザによる最適以下の設定によるリソース利用の低さと,不安定なクラウド環境による異常に遭遇する傾向の2つの重要な課題を明らかにする。
DLRover-RMは,資源利用量を増やし,クラウド環境の不安定性に対処するために設計されたDLRMの弾性トレーニングフレームワークである。
DLRover-RMは、DLRMのユニークな特性と、DLRMトレーニングジョブのリソースを自動的に割り当て、動的に調整する3段階のヒューリスティック戦略を考慮して、リソースパフォーマンスモデルを開発する。
さらに、DLRover-RMは、DLRMトレーニングジョブの効率的かつ信頼性の高い実行を保証するための複数のメカニズムを開発している。
DLRover-RMはジョブ完了時間を31%削減し、ジョブ完了率を6%向上し、CPU使用率を15%向上し、最先端のリソーススケジューリングフレームワークと比較してメモリ使用率を20%向上した。
DLRover-RMはAntGroupで広くデプロイされ、毎日何千ものDLRMトレーニングジョブを処理する。
DLRover-RMはオープンソースで、10社以上の企業が採用している。
関連論文リスト
- UpDLRM: Accelerating Personalized Recommendation using Real-World PIM Architecture [6.5386984667643695]
UpDLRMは、実際のプロセッシングインメモリハードウェアであるUPPMEM DPUを使用して、メモリ帯域幅を拡大し、レコメンデーションレイテンシを低減する。
UpDLRMは、CPU専用とCPU-GPUハイブリッドの両方と比較してDLRMの推論時間を大幅に短縮する。
論文 参考訳(メタデータ) (2024-06-20T02:20:21Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:16:26Z) - InTune: Reinforcement Learning-based Data Pipeline Optimization for Deep
Recommendation Models [3.7414278978078204]
深層学習に基づくレコメンデータモデル(DLRM)は多くの現代のレコメンデータシステムにおいて重要なコンポーネントとなっている。
典型的なディープラーニングトレーニングジョブはモデル実行に支配されているが、DLRMトレーニングパフォーマンスの最も重要な要素は、しばしばオンラインデータの取り込みである。
論文 参考訳(メタデータ) (2023-08-13T18:28:56Z) - ERM++: An Improved Baseline for Domain Generalization [69.80606575323691]
経験的リスク最小化(ERM)は、既存のドメイン一般化(DG)手法よりも優れていることを示す。
ERMは、学習率、ウェイト崩壊、バッチサイズ、ドロップアウトなどのハイパーパラメータのみをチューニングしながら、そのような強力な結果を得た。
結果、より強力なベースライン ERM++ を呼び出します。
論文 参考訳(メタデータ) (2023-04-04T17:31:15Z) - RecD: Deduplication for End-to-End Deep Learning Recommendation Model
Training Infrastructure [3.991664287163157]
RecDは、産業規模のDLRMトレーニングデータセットに固有の機能の重複に起因する膨大なストレージ、前処理、トレーニングオーバーヘッドに対処する。
本稿では,産業規模のDLRMトレーニングシステムにおいて,RecDが最大2.48倍,1.79倍,3.71倍のスループットとストレージ効率を向上させる方法を示す。
論文 参考訳(メタデータ) (2022-11-09T22:21:19Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Efficient Fine-Tuning of BERT Models on the Edge [12.768368718187428]
BERTのようなモデルのためのメモリ効率のよいトレーニングシステムであるFreeze And Reconfigure (FAR)を提案する。
FARは、DistilBERTモデルとCoLAデータセットの微調整時間を30%削減し、メモリ操作に費やした時間を47%削減する。
より広い範囲では、GLUEとSQuADデータセットのメトリックパフォーマンスの低下は平均で約1%である。
論文 参考訳(メタデータ) (2022-05-03T14:51:53Z) - ECRM: Efficient Fault Tolerance for Recommendation Model Training via
Erasure Coding [1.418033127602866]
ディープラーニングレコメンデーションモデル(DLRM)は、パーソナライズされたコンテンツをユーザに提供するために広くデプロイされている。
DLRMは、大きな埋め込みテーブルを使用するため、サイズが大きく、数十から数百のサーバのメモリにモデルを分散させることによって訓練される。
チェックポイントは、これらのシステムでフォールトトレランスに使用される主要なアプローチであるが、かなりのトレーニング時間のオーバーヘッドを負う。
論文 参考訳(メタデータ) (2021-04-05T16:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。