論文の概要: DLRover-RM: Resource Optimization for Deep Recommendation Models Training in the Cloud
- arxiv url: http://arxiv.org/abs/2304.01468v2
- Date: Fri, 28 Jun 2024 09:17:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 22:23:58.536272
- Title: DLRover-RM: Resource Optimization for Deep Recommendation Models Training in the Cloud
- Title(参考訳): DLRover-RM:クラウドにおける深層推薦モデルの資源最適化
- Authors: Qinlong Wang, Tingfeng Lan, Yinghao Tang, Ziling Huang, Yiheng Du, Haitao Zhang, Jian Sha, Hui Lu, Yuanchun Zhou, Ke Zhang, Mingjie Tang,
- Abstract要約: ディープラーニングモデル(DLRM)は、スパース機能を管理するために大きな埋め込みテーブルに依存している。
このような埋め込みテーブルの拡張は、モデルパフォーマンスを大幅に向上させるが、GPU/CPU/メモリ使用量の増加を犠牲にする。
テクノロジ企業は、DLRMモデルを大規模にトレーニングするための、広範なクラウドベースのサービスを構築している。
DLRMのための弾性トレーニングフレームワークであるDLRover-RMを導入し,資源利用量を増やし,クラウド環境の不安定性に対処する。
- 参考スコア(独自算出の注目度): 13.996191403653754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning recommendation models (DLRM) rely on large embedding tables to manage categorical sparse features. Expanding such embedding tables can significantly enhance model performance, but at the cost of increased GPU/CPU/memory usage. Meanwhile, tech companies have built extensive cloud-based services to accelerate training DLRM models at scale. In this paper, we conduct a deep investigation of the DLRM training platforms at AntGroup and reveal two critical challenges: low resource utilization due to suboptimal configurations by users and the tendency to encounter abnormalities due to an unstable cloud environment. To overcome them, we introduce DLRover-RM, an elastic training framework for DLRMs designed to increase resource utilization and handle the instability of a cloud environment. DLRover-RM develops a resource-performance model by considering the unique characteristics of DLRMs and a three-stage heuristic strategy to automatically allocate and dynamically adjust resources for DLRM training jobs for higher resource utilization. Further, DLRover-RM develops multiple mechanisms to ensure efficient and reliable execution of DLRM training jobs. Our extensive evaluation shows that DLRover-RM reduces job completion times by 31%, increases the job completion rate by 6%, enhances CPU usage by 15%, and improves memory utilization by 20%, compared to state-of-the-art resource scheduling frameworks. DLRover-RM has been widely deployed at AntGroup and processes thousands of DLRM training jobs on a daily basis. DLRover-RM is open-sourced and has been adopted by 10+ companies.
- Abstract(参考訳): ディープラーニングレコメンデーションモデル(DLRM)は、分類的スパース機能を管理するために大きな埋め込みテーブルに依存している。
このような埋め込みテーブルの拡張は、モデルパフォーマンスを大幅に向上させるが、GPU/CPU/メモリ使用量の増加を犠牲にする。
一方、IT企業はDLRMモデルの大規模トレーニングを加速するために、広範なクラウドベースのサービスを構築している。
本稿では,AntGroupにおけるDLRMトレーニングプラットフォームを深く調査し,ユーザによる最適以下の設定によるリソース利用の低さと,不安定なクラウド環境による異常に遭遇する傾向の2つの重要な課題を明らかにする。
DLRover-RMは,資源利用量を増やし,クラウド環境の不安定性に対処するために設計されたDLRMの弾性トレーニングフレームワークである。
DLRover-RMは、DLRMのユニークな特性と、DLRMトレーニングジョブのリソースを自動的に割り当て、動的に調整する3段階のヒューリスティック戦略を考慮して、リソースパフォーマンスモデルを開発する。
さらに、DLRover-RMは、DLRMトレーニングジョブの効率的かつ信頼性の高い実行を保証するための複数のメカニズムを開発している。
DLRover-RMはジョブ完了時間を31%削減し、ジョブ完了率を6%向上し、CPU使用率を15%向上し、最先端のリソーススケジューリングフレームワークと比較してメモリ使用率を20%向上した。
DLRover-RMはAntGroupで広くデプロイされ、毎日何千ものDLRMトレーニングジョブを処理する。
DLRover-RMはオープンソースで、10社以上の企業が採用している。
関連論文リスト
- Secure Resource Allocation via Constrained Deep Reinforcement Learning [49.15061461220109]
リソース割り当て、タスクオフロード、セキュリティ、パフォーマンスのバランスをとるフレームワークであるSARMTOを紹介します。
SARMTOは5つのベースラインアプローチを一貫して上回り、最大40%のシステムコスト削減を実現している。
これらの拡張は、複雑な分散コンピューティング環境におけるリソース管理に革命をもたらすSARMTOの可能性を強調している。
論文 参考訳(メタデータ) (2025-01-20T15:52:43Z) - AI-Driven Resource Allocation Framework for Microservices in Hybrid Cloud Platforms [1.03590082373586]
本稿では,ハイブリッドクラウドプラットフォームにおけるリソース割り当てのためのAI駆動型フレームワークを提案する。
このフレームワークは、コスト削減と性能向上のために強化学習(RL)ベースのリソース利用最適化を採用している。
論文 参考訳(メタデータ) (2024-12-03T17:41:08Z) - Dual Risk Minimization: Towards Next-Level Robustness in Fine-tuning Zero-Shot Models [60.38983114420845]
本稿では、下流タスクのコア機能をよりよく保存するための二重リスク最小化(DRM)を提案する。
DRMは期待されるパフォーマンスと最悪のパフォーマンスのバランスをとり、さまざまな実世界のベンチマークで新たな最先端技術を確立します。
論文 参考訳(メタデータ) (2024-11-29T15:01:25Z) - DQRM: Deep Quantized Recommendation Models [34.73674946187648]
大規模なレコメンデーションモデルは、多くの大手インターネット企業にとって主要な作業負荷である。
これらの1TB以上のテーブルのサイズは、レコメンデーションモデルのトレーニングと推論に深刻なメモリボトルネックを課す。
我々は、最先端のディープラーニング勧告モデル(DLRM)に基づいて、小規模で強力で、実行および訓練に効率の良い新しい推薦フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-26T02:33:52Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - RecD: Deduplication for End-to-End Deep Learning Recommendation Model
Training Infrastructure [3.991664287163157]
RecDは、産業規模のDLRMトレーニングデータセットに固有の機能の重複に起因する膨大なストレージ、前処理、トレーニングオーバーヘッドに対処する。
本稿では,産業規模のDLRMトレーニングシステムにおいて,RecDが最大2.48倍,1.79倍,3.71倍のスループットとストレージ効率を向上させる方法を示す。
論文 参考訳(メタデータ) (2022-11-09T22:21:19Z) - Efficient Fine-Tuning of BERT Models on the Edge [12.768368718187428]
BERTのようなモデルのためのメモリ効率のよいトレーニングシステムであるFreeze And Reconfigure (FAR)を提案する。
FARは、DistilBERTモデルとCoLAデータセットの微調整時間を30%削減し、メモリ操作に費やした時間を47%削減する。
より広い範囲では、GLUEとSQuADデータセットのメトリックパフォーマンスの低下は平均で約1%である。
論文 参考訳(メタデータ) (2022-05-03T14:51:53Z) - ECRM: Efficient Fault Tolerance for Recommendation Model Training via
Erasure Coding [1.418033127602866]
ディープラーニングレコメンデーションモデル(DLRM)は、パーソナライズされたコンテンツをユーザに提供するために広くデプロイされている。
DLRMは、大きな埋め込みテーブルを使用するため、サイズが大きく、数十から数百のサーバのメモリにモデルを分散させることによって訓練される。
チェックポイントは、これらのシステムでフォールトトレランスに使用される主要なアプローチであるが、かなりのトレーニング時間のオーバーヘッドを負う。
論文 参考訳(メタデータ) (2021-04-05T16:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。