Fugu-MT 論文翻訳(概要): Multi-Level ML Based Burst-Aware Autoscaling for SLO Assurance and Cost Efficiency

論文の概要: Multi-Level ML Based Burst-Aware Autoscaling for SLO Assurance and Cost Efficiency

arxiv url: http://arxiv.org/abs/2402.12962v1
Date: Tue, 20 Feb 2024 12:28:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 15:17:40.791909
Title: Multi-Level ML Based Burst-Aware Autoscaling for SLO Assurance and Cost Efficiency
Title（参考訳）: マルチレベルMLに基づくSLO保証とコスト効率のためのバーストアウェアオートスケーリング
Authors: Chunyang Meng, Haogang Tong, Tianyang Wu, Maolin Pan, Yang Yu
Abstract要約: 本稿では、複雑なワークロード下でコンテナ化されたクラウドサービスやアプリケーションのためのBurst-Aware AutoscalingフレームワークであるBAScalerを紹介します。 BAScalerには、予測可能な周期的なワークロードスパイクと実際のバーストを区別する、予測に基づく新しいバースト検出機構が組み込まれている。
参考スコア（独自算出の注目度）: 3.5624365288866007
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoscaling is a technology to automatically scale the resources provided to their applications without human intervention to guarantee runtime Quality of Service (QoS) while saving costs. However, user-facing cloud applications serve dynamic workloads that often exhibit variable and contain bursts, posing challenges to autoscaling for maintaining QoS within Service-Level Objectives (SLOs). Conservative strategies risk over-provisioning, while aggressive ones may cause SLO violations, making it more challenging to design effective autoscaling. This paper introduces BAScaler, a Burst-Aware Autoscaling framework for containerized cloud services or applications under complex workloads, combining multi-level machine learning (ML) techniques to mitigate SLO violations while saving costs. BAScaler incorporates a novel prediction-based burst detection mechanism that distinguishes between predictable periodic workload spikes and actual bursts. When bursts are detected, BAScaler appropriately overestimates them and allocates resources accordingly to address the rapid growth in resource demand. On the other hand, BAScaler employs reinforcement learning to rectify potential inaccuracies in resource estimation, enabling more precise resource allocation during non-bursts. Experiments across ten real-world workloads demonstrate BAScaler's effectiveness, achieving a 57% average reduction in SLO violations and cutting resource costs by 10% compared to other prominent methods.
Abstract（参考訳）: オートスケーリングは、コストを節約しつつ、ランタイム品質(QoS)を保証するために、人間の介入なしにアプリケーションに提供するリソースを自動的にスケールする技術である。しかし、ユーザ向けクラウドアプリケーションは、しばしば変数を示し、バーストを含む動的なワークロードを提供し、サービスレベルの目的(slos)内でqosを維持する自動スケーリングの課題を提起する。保守的な戦略は過剰な計画のリスクを負うが、攻撃的な戦略はSLO違反を引き起こす可能性があるため、効果的なオートスケーリングを設計することがより困難になる。本稿では、複雑なワークロード下でコンテナ化されたクラウドサービスやアプリケーションのためのBurst-Aware AutoscalingフレームワークであるBAScalerを紹介し、マルチレベル機械学習(ML)技術を組み合わせてコストを削減しながらSLO違反を軽減する。 BAScalerには、予測可能な周期的なワークロードスパイクと実際のバーストを区別する、予測に基づく新しいバースト検出機構が組み込まれている。バーストが検出されると、BAScalerはそれらを適切に過大評価し、リソース需要の急速な増加に対応するためにリソースを割り当てる。一方,BAScalerでは,リソース推定における潜在的な不正確性を補正するために強化学習を採用している。 10の実際のワークロードに対する実験は、BAScalerの有効性を示し、SLO違反を平均57%削減し、他の著名な方法と比較してリソースコストを10%削減した。

関連論文リスト

Network Resource Optimization for ML-Based UAV Condition Monitoring with Vibration Analysis [54.550658461477106]
条件監視(CM)は機械学習(ML)モデルを使用して異常および異常な条件を識別する。本研究では,MLベースのUAV CMフレームワークにおけるネットワークリソースの最適化について検討する。次元削減技術を活用することで、ネットワークリソース消費の99.9%が削減される。
論文参考訳（メタデータ） (2025-02-21T14:36:12Z)
Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。 PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文参考訳（メタデータ） (2025-02-07T00:06:17Z)
Secure Resource Allocation via Constrained Deep Reinforcement Learning [49.15061461220109]
リソース割り当て、タスクオフロード、セキュリティ、パフォーマンスのバランスをとるフレームワークであるSARMTOを紹介します。 SARMTOは5つのベースラインアプローチを一貫して上回り、最大40%のシステムコスト削減を実現している。これらの拡張は、複雑な分散コンピューティング環境におけるリソース管理に革命をもたらすSARMTOの可能性を強調している。
論文参考訳（メタデータ） (2025-01-20T15:52:43Z)
OptScaler: A Hybrid Proactive-Reactive Framework for Robust Autoscaling in the Cloud [11.340252931723063]
オートスケーリングはクラウドコンピューティングにおいて重要なメカニズムであり、動的ワークロード下でのコンピューティングリソースの自律的な調整をサポートする。既存のアクティブ自動スケーリングメソッドは将来のワークロードを予測し、事前にリソースをスケールしますが、リアクティブメソッドはリアルタイムシステムフィードバックに依存します。本稿では,CPU利用制御のためのプロアクティブ手法とリアクティブ手法の両方のパワーを統合するハイブリッド自動スケーリングフレームワークであるOpsScalerを提案する。
論文参考訳（メタデータ） (2023-10-26T04:38:48Z)
Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference Serving Systems [0.0]
InfAdapterは、レイテンシSLOを満たすために、リソース割り当てでMLモデルの一連の変種を積極的に選択する。 SLO違反を減らし、業界で人気のオートスケーラと比較して、それぞれ65%と33%に値下げする。
論文参考訳（メタデータ） (2023-04-21T11:19:49Z)
Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A Multi-Agent Reinforcement Learning Approach [48.18355658448509]
生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。地理的に分散したクラウドデータセンタ間でのトレーニングジョブのスケジューリングは、安価で低炭素エネルギーのコンピューティング能力の使用を最適化する機会を浮き彫りにする。本研究では,実生活におけるワークロードパターン,エネルギー価格,炭素強度を組み込んだクラウドシステムと対話することで,マルチエージェント強化学習とアクタクリティカルな手法に基づく最適協調スケジューリング戦略の学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-17T02:12:30Z)
Guaranteed Dynamic Scheduling of Ultra-Reliable Low-Latency Traffic via Conformal Prediction [72.59079526765487]
アップリンクにおける超信頼性・低遅延トラフィック(URLLC)の動的スケジューリングは、既存のサービスの効率を大幅に向上させることができる。主な課題は、URLLCパケット生成のプロセスにおける不確実性である。本稿では,URLLC トラフィック予測器の品質に関わらず,信頼性と遅延を保証した新しい URLLC パケットスケジューラを提案する。
論文参考訳（メタデータ） (2023-02-15T14:09:55Z)
TransPath: Learning Heuristics For Grid-Based Pathfinding via Transformers [64.88759709443819]
探索の効率を顕著に向上させると考えられる,インスタンス依存のプロキシを学習することを提案する。私たちが最初に学ぶことを提案するプロキシは、補正係数、すなわち、インスタンスに依存しないコスト・ツー・ゴの見積もりと完璧な見積もりの比率である。第2のプロキシはパス確率であり、グリッドセルが最も短いパスに横たわっている可能性を示している。
論文参考訳（メタデータ） (2022-12-22T14:26:11Z)
A Meta Reinforcement Learning Approach for Predictive Autoscaling in the Cloud [10.970391043991363]
本稿では,CPU利用の安定レベルを維持するために資源を最適に割り当てることを目的とした,エンドツーエンドのメタモデルに基づくRLアルゴリズムを提案する。当社のアルゴリズムは,スケーリング戦略の予測可能性と精度を確保するだけでなく,スケーリング決定が変化するワークロードに高いサンプル効率で適応できるようにする。
論文参考訳（メタデータ） (2022-05-31T13:54:04Z)
Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文参考訳（メタデータ） (2022-02-25T16:17:23Z)
PROMPT: Learning Dynamic Resource Allocation Policies for Network Applications [16.812611987082082]
本稿では、プロアクティブな予測を用いて強化学習コントローラを誘導する新しいリソース割り当てフレームワークPROMPTを提案する。本稿では,PROMPTが4.2倍少ない違反を発生させ,政策違反の深刻度を12.7倍に低減し,最善を尽くした作業負荷性能を向上し,先行作業よりも全体的な電力効率を向上することを示す。
論文参考訳（メタデータ） (2022-01-19T23:34:34Z)
Federated Learning with Unreliable Clients: Performance Analysis and Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文参考訳（メタデータ） (2021-05-10T08:02:27Z)
Coordinated Online Learning for Multi-Agent Systems with Coupled Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文参考訳（メタデータ） (2020-10-21T10:11:17Z)
A Predictive Autoscaler for Elastic Batch Jobs [8.354712625979776]
Deep Learning、HPC、Sparkといった大規模なバッチジョブは、従来のオンラインサービスよりもはるかに多くの計算リソースとコストを必要とします。顧客とオーバプロビジョンインスタンスに対して,柔軟なインターフェースを提供するための予測オートスケーラを提案する。
論文参考訳（メタデータ） (2020-10-10T17:35:55Z)
ReLeaSER: A Reinforcement Learning Strategy for Optimizing Utilization Of Ephemeral Cloud Resources [2.205500582481277]
本稿では,クラウド上での短命資源の利用を最適化するための強化学習戦略を提案する。私たちのソリューションはSLA違反の罰則を平均2.7倍、最大3.4倍に大幅に削減します。またCPの貯蓄率を平均で27.6%、最大で43.6%向上させる。
論文参考訳（メタデータ） (2020-09-23T15:19:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。