Fugu-MT 論文翻訳(概要): DLRover: An Elastic Deep Training Extension with Auto Job Resource Recommendation

論文の概要: DLRover: An Elastic Deep Training Extension with Auto Job Resource Recommendation

arxiv url: http://arxiv.org/abs/2304.01468v1
Date: Tue, 4 Apr 2023 02:13:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-05 15:42:35.224103
Title: DLRover: An Elastic Deep Training Extension with Auto Job Resource Recommendation
Title（参考訳）: DLRover: オートジョブリソースレコメンデーションを備えたElastic Deep Training Extension
Authors: Qinlong Wang, Bo Sang, Haitao Zhang, Mingjie Tang, Ke Zhang
Abstract要約: Systemは分散ディープラーニング(DL)フレームワークで、ジョブの初期リソースを自動的に設定し、ジョブのリソースを動的にチューニングしてパフォーマンスを向上させる。 Systemreduces the medium of job completion time by 31%, and the job completion rate by 6%, CPU utilization by 15%, and memory utilization by 20% by hand configuration。
参考スコア（独自算出の注目度）: 7.827516951013684
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The cloud is still a popular platform for distributed deep learning (DL) training jobs since resource sharing in the cloud can improve resource utilization and reduce overall costs. However, such sharing also brings multiple challenges for DL training jobs, e.g., high-priority jobs could impact, even interrupt, low-priority jobs. Meanwhile, most existing distributed DL training systems require users to configure the resources (i.e., the number of nodes and resources like CPU and memory allocated to each node) of jobs manually before job submission and can not adjust the job's resources during the runtime. The resource configuration of a job deeply affect this job's performance (e.g., training throughput, resource utilization, and completion rate). However, this usually leads to poor performance of jobs since users fail to provide optimal resource configuration in most cases. \system~is a distributed DL framework can auto-configure a DL job's initial resources and dynamically tune the job's resources to win the better performance. With elastic capability, \system~can effectively adjusts the resources of a job when there are performance issues detected or a job fails because of faults or eviction. Evaluations results show \system~can outperform manual well-tuned resource configurations. Furthermore, in the production Kubernetes cluster of \company, \system~reduces the medium of job completion time by 31\%, and improves the job completion rate by 6\%, CPU utilization by 15\%, and memory utilization by 20\% compared with manual configuration.
Abstract（参考訳）: クラウドでのリソース共有はリソース利用を改善し、全体的なコストを削減することができるため、クラウドは依然として分散ディープラーニング(DL)トレーニングジョブの一般的なプラットフォームです。しかし、そのような共有はまた、高優先度のジョブが割り込み、低優先度のジョブに影響を及ぼすような、DLトレーニングのジョブに複数の課題をもたらす。一方、既存の分散dlトレーニングシステムでは、ジョブのリソース(例えば、各ノードに割り当てられたcpuやメモリなど)を、ジョブ提出前に手動で設定する必要があるため、実行時にジョブのリソースを調整することはできない。ジョブのリソース構成は、このジョブのパフォーマンス(トレーニングスループット、リソース利用率、完了率など)に深く影響します。しかし、多くの場合、ユーザーは最適なリソース設定を提供していないため、ジョブのパフォーマンスが低下する。分散dlフレームワークは、dlジョブの初期リソースを自動設定し、ジョブのリソースを動的に調整し、より良いパフォーマンスを得ることができる。弾力性のある機能により、\system~は、パフォーマンス上の問題が検出されたり、障害や退行のためにジョブが失敗する場合に、ジョブのリソースを効果的に調整できる。評価結果は、手動で調整されたリソース構成よりも優れた性能を示す。さらに、‘company’のKubernetesクラスタでは、‘system~reduces the medium of job completion time by 31\%と、ジョブ完了率6\%、CPU使用率15\%、メモリ使用率20\%を手動構成と比較して改善する。

関連論文リスト

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization [74.04867639197445]
MiroMind-M1 は Qwen-2.5 ベースのベンチマーク上に構築された完全なオープンソース RLM のセットである。我々のモデルは2つの段階で訓練されている: SFT on a carefully curated corpus of 719K math-reasoning problem with confirmed CoT trajectories, then RLVR on 62K challenge and verible problem。
論文参考訳（メタデータ） (2025-07-19T16:21:23Z)
R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning [22.167272219418845]
マルチモーダル・リワードモデル(MRM)は、マルチモーダル大言語モデル(MLLM)の性能向上に重要な役割を果たす。本稿では,既存のRL手法のトレーニング損失,利点推定戦略,報酬設計を改良したStableReinforceアルゴリズムを提案する。我々の報酬モデルであるR1-Rewardは、このデータセット上でStableReinforceアルゴリズムを使用してトレーニングされ、マルチモーダル報酬モデリングベンチマークのパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2025-05-05T17:59:50Z)
Secure Resource Allocation via Constrained Deep Reinforcement Learning [49.15061461220109]
リソース割り当て、タスクオフロード、セキュリティ、パフォーマンスのバランスをとるフレームワークであるSARMTOを紹介します。 SARMTOは5つのベースラインアプローチを一貫して上回り、最大40%のシステムコスト削減を実現している。これらの拡張は、複雑な分散コンピューティング環境におけるリソース管理に革命をもたらすSARMTOの可能性を強調している。
論文参考訳（メタデータ） (2025-01-20T15:52:43Z)
AI-Driven Resource Allocation Framework for Microservices in Hybrid Cloud Platforms [1.03590082373586]
本稿では,ハイブリッドクラウドプラットフォームにおけるリソース割り当てのためのAI駆動型フレームワークを提案する。このフレームワークは、コスト削減と性能向上のために強化学習(RL)ベースのリソース利用最適化を採用している。
論文参考訳（メタデータ） (2024-12-03T17:41:08Z)
Dual Risk Minimization: Towards Next-Level Robustness in Fine-tuning Zero-Shot Models [60.38983114420845]
本稿では、下流タスクのコア機能をよりよく保存するための二重リスク最小化(DRM)を提案する。 DRMは期待されるパフォーマンスと最悪のパフォーマンスのバランスをとり、さまざまな実世界のベンチマークで新たな最先端技術を確立します。
論文参考訳（メタデータ） (2024-11-29T15:01:25Z)
CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文参考訳（メタデータ） (2024-11-04T17:30:51Z)
DQRM: Deep Quantized Recommendation Models [34.73674946187648]
大規模なレコメンデーションモデルは、多くの大手インターネット企業にとって主要な作業負荷である。これらの1TB以上のテーブルのサイズは、レコメンデーションモデルのトレーニングと推論に深刻なメモリボトルネックを課す。我々は、最先端のディープラーニング勧告モデル(DLRM)に基づいて、小規模で強力で、実行および訓練に効率の良い新しい推薦フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-26T02:33:52Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文参考訳（メタデータ） (2024-09-20T01:46:07Z)
Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。 SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文参考訳（メタデータ） (2024-09-10T22:57:58Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
InTune: Reinforcement Learning-based Data Pipeline Optimization for Deep Recommendation Models [3.7414278978078204]
深層学習に基づくレコメンデータモデル(DLRM)は多くの現代のレコメンデータシステムにおいて重要なコンポーネントとなっている。典型的なディープラーニングトレーニングジョブはモデル実行に支配されているが、DLRMトレーニングパフォーマンスの最も重要な要素は、しばしばオンラインデータの取り込みである。
論文参考訳（メタデータ） (2023-08-13T18:28:56Z)
ERM++: An Improved Baseline for Domain Generalization [69.80606575323691]
経験的リスク最小化(ERM)は、既存のドメイン一般化(DG)手法よりも優れていることを示す。 ERMは、学習率、ウェイト崩壊、バッチサイズ、ドロップアウトなどのハイパーパラメータのみをチューニングしながら、そのような強力な結果を得た。結果、より強力なベースライン ERM++ を呼び出します。
論文参考訳（メタデータ） (2023-04-04T17:31:15Z)
RecD: Deduplication for End-to-End Deep Learning Recommendation Model Training Infrastructure [3.991664287163157]
RecDは、産業規模のDLRMトレーニングデータセットに固有の機能の重複に起因する膨大なストレージ、前処理、トレーニングオーバーヘッドに対処する。本稿では,産業規模のDLRMトレーニングシステムにおいて,RecDが最大2.48倍,1.79倍,3.71倍のスループットとストレージ効率を向上させる方法を示す。
論文参考訳（メタデータ） (2022-11-09T22:21:19Z)
Efficient Fine-Tuning of BERT Models on the Edge [12.768368718187428]
BERTのようなモデルのためのメモリ効率のよいトレーニングシステムであるFreeze And Reconfigure (FAR)を提案する。 FARは、DistilBERTモデルとCoLAデータセットの微調整時間を30%削減し、メモリ操作に費やした時間を47%削減する。より広い範囲では、GLUEとSQuADデータセットのメトリックパフォーマンスの低下は平均で約1%である。
論文参考訳（メタデータ） (2022-05-03T14:51:53Z)
ECRM: Efficient Fault Tolerance for Recommendation Model Training via Erasure Coding [1.418033127602866]
ディープラーニングレコメンデーションモデル(DLRM)は、パーソナライズされたコンテンツをユーザに提供するために広くデプロイされている。 DLRMは、大きな埋め込みテーブルを使用するため、サイズが大きく、数十から数百のサーバのメモリにモデルを分散させることによって訓練される。チェックポイントは、これらのシステムでフォールトトレランスに使用される主要なアプローチであるが、かなりのトレーニング時間のオーバーヘッドを負う。
論文参考訳（メタデータ） (2021-04-05T16:16:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。