論文の概要: DLRover: An Elastic Deep Training Extension with Auto Job Resource
Recommendation
- arxiv url: http://arxiv.org/abs/2304.01468v1
- Date: Tue, 4 Apr 2023 02:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 15:42:35.224103
- Title: DLRover: An Elastic Deep Training Extension with Auto Job Resource
Recommendation
- Title(参考訳): DLRover: オートジョブリソースレコメンデーションを備えたElastic Deep Training Extension
- Authors: Qinlong Wang, Bo Sang, Haitao Zhang, Mingjie Tang, Ke Zhang
- Abstract要約: Systemは分散ディープラーニング(DL)フレームワークで、ジョブの初期リソースを自動的に設定し、ジョブのリソースを動的にチューニングしてパフォーマンスを向上させる。
Systemreduces the medium of job completion time by 31%, and the job completion rate by 6%, CPU utilization by 15%, and memory utilization by 20% by hand configuration。
- 参考スコア(独自算出の注目度): 7.827516951013684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The cloud is still a popular platform for distributed deep learning (DL)
training jobs since resource sharing in the cloud can improve resource
utilization and reduce overall costs. However, such sharing also brings
multiple challenges for DL training jobs, e.g., high-priority jobs could
impact, even interrupt, low-priority jobs. Meanwhile, most existing distributed
DL training systems require users to configure the resources (i.e., the number
of nodes and resources like CPU and memory allocated to each node) of jobs
manually before job submission and can not adjust the job's resources during
the runtime. The resource configuration of a job deeply affect this job's
performance (e.g., training throughput, resource utilization, and completion
rate). However, this usually leads to poor performance of jobs since users fail
to provide optimal resource configuration in most cases. \system~is a
distributed DL framework can auto-configure a DL job's initial resources and
dynamically tune the job's resources to win the better performance. With
elastic capability, \system~can effectively adjusts the resources of a job when
there are performance issues detected or a job fails because of faults or
eviction. Evaluations results show \system~can outperform manual well-tuned
resource configurations. Furthermore, in the production Kubernetes cluster of
\company, \system~reduces the medium of job completion time by 31\%, and
improves the job completion rate by 6\%, CPU utilization by 15\%, and memory
utilization by 20\% compared with manual configuration.
- Abstract(参考訳): クラウドでのリソース共有はリソース利用を改善し、全体的なコストを削減することができるため、クラウドは依然として分散ディープラーニング(DL)トレーニングジョブの一般的なプラットフォームです。
しかし、そのような共有はまた、高優先度のジョブが割り込み、低優先度のジョブに影響を及ぼすような、DLトレーニングのジョブに複数の課題をもたらす。
一方、既存の分散dlトレーニングシステムでは、ジョブのリソース(例えば、各ノードに割り当てられたcpuやメモリなど)を、ジョブ提出前に手動で設定する必要があるため、実行時にジョブのリソースを調整することはできない。
ジョブのリソース構成は、このジョブのパフォーマンス(トレーニングスループット、リソース利用率、完了率など)に深く影響します。
しかし、多くの場合、ユーザーは最適なリソース設定を提供していないため、ジョブのパフォーマンスが低下する。
分散dlフレームワークは、dlジョブの初期リソースを自動設定し、ジョブのリソースを動的に調整し、より良いパフォーマンスを得ることができる。
弾力性のある機能により、\system~は、パフォーマンス上の問題が検出されたり、障害や退行のためにジョブが失敗する場合に、ジョブのリソースを効果的に調整できる。
評価結果は、手動で調整されたリソース構成よりも優れた性能を示す。
さらに、‘company’のKubernetesクラスタでは、‘system~reduces the medium of job completion time by 31\%と、ジョブ完了率6\%、CPU使用率15\%、メモリ使用率20\%を手動構成と比較して改善する。
関連論文リスト
- Secure Resource Allocation via Constrained Deep Reinforcement Learning [49.15061461220109]
リソース割り当て、タスクオフロード、セキュリティ、パフォーマンスのバランスをとるフレームワークであるSARMTOを紹介します。
SARMTOは5つのベースラインアプローチを一貫して上回り、最大40%のシステムコスト削減を実現している。
これらの拡張は、複雑な分散コンピューティング環境におけるリソース管理に革命をもたらすSARMTOの可能性を強調している。
論文 参考訳(メタデータ) (2025-01-20T15:52:43Z) - AI-Driven Resource Allocation Framework for Microservices in Hybrid Cloud Platforms [1.03590082373586]
本稿では,ハイブリッドクラウドプラットフォームにおけるリソース割り当てのためのAI駆動型フレームワークを提案する。
このフレームワークは、コスト削減と性能向上のために強化学習(RL)ベースのリソース利用最適化を採用している。
論文 参考訳(メタデータ) (2024-12-03T17:41:08Z) - Dual Risk Minimization: Towards Next-Level Robustness in Fine-tuning Zero-Shot Models [60.38983114420845]
本稿では、下流タスクのコア機能をよりよく保存するための二重リスク最小化(DRM)を提案する。
DRMは期待されるパフォーマンスと最悪のパフォーマンスのバランスをとり、さまざまな実世界のベンチマークで新たな最先端技術を確立します。
論文 参考訳(メタデータ) (2024-11-29T15:01:25Z) - DQRM: Deep Quantized Recommendation Models [34.73674946187648]
大規模なレコメンデーションモデルは、多くの大手インターネット企業にとって主要な作業負荷である。
これらの1TB以上のテーブルのサイズは、レコメンデーションモデルのトレーニングと推論に深刻なメモリボトルネックを課す。
我々は、最先端のディープラーニング勧告モデル(DLRM)に基づいて、小規模で強力で、実行および訓練に効率の良い新しい推薦フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-26T02:33:52Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - RecD: Deduplication for End-to-End Deep Learning Recommendation Model
Training Infrastructure [3.991664287163157]
RecDは、産業規模のDLRMトレーニングデータセットに固有の機能の重複に起因する膨大なストレージ、前処理、トレーニングオーバーヘッドに対処する。
本稿では,産業規模のDLRMトレーニングシステムにおいて,RecDが最大2.48倍,1.79倍,3.71倍のスループットとストレージ効率を向上させる方法を示す。
論文 参考訳(メタデータ) (2022-11-09T22:21:19Z) - Efficient Fine-Tuning of BERT Models on the Edge [12.768368718187428]
BERTのようなモデルのためのメモリ効率のよいトレーニングシステムであるFreeze And Reconfigure (FAR)を提案する。
FARは、DistilBERTモデルとCoLAデータセットの微調整時間を30%削減し、メモリ操作に費やした時間を47%削減する。
より広い範囲では、GLUEとSQuADデータセットのメトリックパフォーマンスの低下は平均で約1%である。
論文 参考訳(メタデータ) (2022-05-03T14:51:53Z) - ECRM: Efficient Fault Tolerance for Recommendation Model Training via
Erasure Coding [1.418033127602866]
ディープラーニングレコメンデーションモデル(DLRM)は、パーソナライズされたコンテンツをユーザに提供するために広くデプロイされている。
DLRMは、大きな埋め込みテーブルを使用するため、サイズが大きく、数十から数百のサーバのメモリにモデルを分散させることによって訓練される。
チェックポイントは、これらのシステムでフォールトトレランスに使用される主要なアプローチであるが、かなりのトレーニング時間のオーバーヘッドを負う。
論文 参考訳(メタデータ) (2021-04-05T16:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。