論文の概要: SLA-MORL: SLA-Aware Multi-Objective Reinforcement Learning for HPC Resource Optimization
- arxiv url: http://arxiv.org/abs/2508.03509v1
- Date: Tue, 05 Aug 2025 14:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.018577
- Title: SLA-MORL: SLA-Aware Multi-Objective Reinforcement Learning for HPC Resource Optimization
- Title(参考訳): SLA-MORL:HPC資源最適化のためのSLA対応多目的強化学習
- Authors: Seraj Al Mahmud Mostafa, Aravind Mohan, Jianwu Wang,
- Abstract要約: 本稿では、ユーザの好みに基づいてリソースをインテリジェントに割り当てる適応型多目的強化学習フレームワークSLA-MORLを提案する。
SLA-MORLは、納期クリティカルなジョブのトレーニング時間を67.2%削減し、予算制約のあるワークロードのコストを68.8%削減し、静的ベースラインと比較してSLA全体の73.4%改善したことを示す。
- 参考スコア(独自算出の注目度): 0.9026828778470117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic resource allocation for machine learning workloads in cloud environments remains challenging due to competing objectives of minimizing training time and operational costs while meeting Service Level Agreement (SLA) constraints. Traditional approaches employ static resource allocation or single-objective optimization, leading to either SLA violations or resource waste. We present SLA-MORL, an adaptive multi-objective reinforcement learning framework that intelligently allocates GPU and CPU resources based on user-defined preferences (time, cost, or balanced) while ensuring SLA compliance. Our approach introduces two key innovations: (1) intelligent initialization through historical learning or efficient baseline runs that eliminates cold-start problems, reducing initial exploration overhead by 60%, and (2) dynamic weight adaptation that automatically adjusts optimization priorities based on real-time SLA violation severity, creating a self-correcting system. SLA-MORL constructs a 21-dimensional state representation capturing resource utilization, training progress, and SLA compliance, enabling an actor-critic network to make informed allocation decisions across 9 possible actions. Extensive evaluation on 13 diverse ML workloads using production HPC infrastructure demonstrates that SLA-MORL achieves 67.2% reduction in training time for deadline-critical jobs, 68.8% reduction in costs for budget-constrained workloads, and 73.4% improvement in overall SLA compliance compared to static baselines. By addressing both cold-start inefficiency and dynamic adaptation challenges, SLA-MORL provides a practical solution for cloud resource management that balances performance, cost, and reliability in modern ML training environments.
- Abstract(参考訳): クラウド環境における機械学習ワークロードの動的リソース割り当ては、SLA(Service Level Agreement)の制約を満たしながら、トレーニング時間と運用コストを最小化するという競合する目標のために、依然として困難である。
従来のアプローチでは、静的なリソース割り当てや単一目的の最適化を採用しており、SLA違反やリソースの浪費につながる。
SLA-MORLは適応型多目的強化学習フレームワークで、ユーザの好み(時間、コスト、バランス)に基づいてGPUとCPUリソースをインテリジェントに割り当て、SLAコンプライアンスを保証する。
提案手法では,(1) 冷戦開始時の問題を排除し,初期探索オーバーヘッドを60%削減する履歴学習や効率的なベースライン実行によるインテリジェントな初期化,(2) リアルタイムSLA違反の深刻度に基づいて最適化の優先順位を自動的に調整する動的重み適応,および自己修正システムを提案する。
SLA-MORLは、リソース利用、トレーニングの進捗、SLAコンプライアンスをキャプチャする21次元の状態表現を構築する。
HPCインフラストラクチャを使用した13の多様なMLワークロードの大規模な評価は、SLA-MORLが納期クリティカルなジョブのトレーニング時間を67.2%削減し、予算制約のあるワークロードのコストを68.8%削減し、静的ベースラインよりも全体のSLAコンプライアンスを73.4%改善したことを示している。
SLA-MORLは、コールドスタートの非効率性と動的適応の課題に対処することによって、現代のMLトレーニング環境でのパフォーマンス、コスト、信頼性のバランスをとるための、クラウドリソース管理の実践的なソリューションを提供します。
関連論文リスト
- Adaptive Request Scheduling for CodeLLM Serving with SLA Guarantees [6.110847503516972]
既存の大規模言語モデル(CodeMs)は、現代のソフトウェア開発にますます統合されています。
しかし、セルフホスト環境は、リソース制約のあるサービス環境において重要な課題である。
要求毎のSLAの実現可能性と意思決定をリアルタイムで予測する動的戦略であるSABERを提案する。
以上の結果から,SLAを意識した適応スケジューリングが,堅牢で高性能なCodeLL提供の鍵となることを示す。
論文 参考訳(メタデータ) (2025-06-24T14:44:33Z) - CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,計算効率の高いオートエンコーダを用いて,CoLAとそのメモリ効率の高い実装であるCoLA-Mを提案する。
6000万から70億のパラメータを持つLLaMAモデルに対する実験は、CoLAが計算コストを$bf 2pmbtimes$.bf 2pmbtimes$.comに削減したことを示している。
CoLA-Mはスループットを犠牲にすることなくメモリコストをさらに削減し、全体として優れたパラメータ、計算、メモリ効率を備えた事前学習アプローチを提供する。
論文 参考訳(メタデータ) (2025-02-16T01:05:16Z) - Adaptive Resource Allocation Optimization Using Large Language Models in Dynamic Wireless Environments [25.866960634041092]
現在のソリューションはドメイン固有のアーキテクチャや技術に依存しており、制約付き最適化のための一般的なDLアプローチは未開発のままである。
本稿では,制約を順守しながら複雑な資源配分問題に対処するために,資源割当(LLM-RAO)のための大規模言語モデルを提案する。
LLM-RAO は従来の DL 法と比較して最大40% の性能向上を実現し,分析手法よりも80$% 向上した。
論文 参考訳(メタデータ) (2025-02-04T12:56:59Z) - SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training [60.9776082805359]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示しているが、そのトレーニングは、非常にリソース集約的で、トレーニングの不安定性に影響を受けやすいままである。
本稿では,LLMトレーニング中に観測された勾配スパイクを包括的に調査し,複数のアーキテクチャやデータセットにまたがる傾向を明らかにする。
本稿では,モーメントムリセットを用いたスパイク・アウェア・アダムを提案し,モーメントムリセットとスパイク・アウェア・クリッピングによる勾配スパイク対策について述べる。
論文 参考訳(メタデータ) (2025-01-12T15:21:22Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference
Serving Systems [0.0]
InfAdapterは、レイテンシSLOを満たすために、リソース割り当てでMLモデルの一連の変種を積極的に選択する。
SLO違反を減らし、業界で人気のオートスケーラと比較して、それぞれ65%と33%に値下げする。
論文 参考訳(メタデータ) (2023-04-21T11:19:49Z) - CILP: Co-simulation based Imitation Learner for Dynamic Resource
Provisioning in Cloud Computing Environments [13.864161788250856]
レイテンシクリティカルなタスクの主な課題は、積極的にプロビジョニングする将来のワークロード要求を予測することだ。
既存のAIベースのソリューションは、プロビジョニングのオーバーヘッド、異種VMコスト、クラウドシステムの品質(QoS)など、すべての重要な側面を公平に考慮しない傾向があります。
予測と最適化の2つのサブプロブレムとしてVMプロビジョニング問題を定式化するCILPと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-11T09:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。