論文の概要: Analytically-Driven Resource Management for Cloud-Native Microservices
- arxiv url: http://arxiv.org/abs/2401.02920v1
- Date: Fri, 5 Jan 2024 17:55:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 14:25:35.995465
- Title: Analytically-Driven Resource Management for Cloud-Native Microservices
- Title(参考訳): クラウドネイティブマイクロサービスのための分析駆動型リソース管理
- Authors: Yanqi Zhang and Zhuangzhuang Zhou and Sameh Elnikety and Christina
Delimitrou
- Abstract要約: クラウドネイティブのための軽量リソース管理システムであるUrsaを紹介する。
UsaはエンドツーエンドのSLAパイプラインをサービス毎のSLAに分解し、サービス毎のSLAを層毎のリソース割り当てにマップする。
我々はUrsaを、ソーシャルネットワーク、メディアサービス、ビデオ処理を含む、代表的およびエンドツーエンドのマイクロサービストポロジのセットで評価する。
- 参考スコア(独自算出の注目度): 3.1022510428295287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Resource management for cloud-native microservices has attracted a lot of
recent attention. Previous work has shown that machine learning (ML)-driven
approaches outperform traditional techniques, such as autoscaling, in terms of
both SLA maintenance and resource efficiency. However, ML-driven approaches
also face challenges including lengthy data collection processes and limited
scalability. We present Ursa, a lightweight resource management system for
cloud-native microservices that addresses these challenges. Ursa uses an
analytical model that decomposes the end-to-end SLA into per-service SLA, and
maps per-service SLA to individual resource allocations per microservice tier.
To speed up the exploration process and avoid prolonged SLA violations, Ursa
explores each microservice individually, and swiftly stops exploration if
latency exceeds its SLA.
We evaluate Ursa on a set of representative and end-to-end microservice
topologies, including a social network, media service and video processing
pipeline, each consisting of multiple classes and priorities of requests with
different SLAs, and compare it against two representative ML-driven systems,
Sinan and Firm. Compared to these ML-driven approaches, Ursa provides
significant advantages: It shortens the data collection process by more than
128x, and its control plane is 43x faster than ML-driven approaches. At the
same time, Ursa does not sacrifice resource efficiency or SLAs. During online
deployment, Ursa reduces the SLA violation rate by 9.0% up to 49.9%, and
reduces CPU allocation by up to 86.2% compared to ML-driven approaches.
- Abstract(参考訳): クラウドネイティブなマイクロサービスのためのリソース管理は、最近多くの注目を集めている。
これまでの研究によると、機械学習(ML)によるアプローチは、SLAのメンテナンスとリソース効率の両方の観点から、オートスケーリングのような従来のテクニックよりも優れている。
しかし、ML駆動のアプローチは、長いデータ収集プロセスや限られたスケーラビリティといった課題にも直面する。
このような課題に対処する,クラウドネイティブマイクロサービス用の軽量リソース管理システムであるursaを提案する。
Ursaは分析モデルを使用して、エンドツーエンドのSLAをサービス毎のSLAに分解し、サービス毎のSLAをマイクロサービス層毎のリソース割り当てにマップする。
探索プロセスをスピードアップし、長期にわたるSLA違反を回避するため、Ursaは個々のマイクロサービスを個別に探索し、レイテンシがSLAを超えた場合、素早く探索を停止する。
我々はUrsaを、ソーシャルネットワーク、メディアサービス、ビデオ処理パイプラインを含む代表的およびエンドツーエンドのマイクロサービストポロジのセットで評価し、それぞれ異なるSLAで複数のクラスとリクエストの優先順位で構成され、それを2つの代表的ML駆動システムであるSinanとFirmと比較した。
ml駆動のアプローチと比較して、ursaには大きなメリットがある。 データ収集プロセスを128倍以上に短縮し、そのコントロールプレーンはml駆動のアプローチよりも43倍高速である。
同時に、Ursaはリソース効率やSLAを犠牲にしません。
オンラインデプロイメント中、UrsaはSLA違反率を9.0%から49.9%に下げ、ML駆動のアプローチと比較してCPU割り当てを86.2%削減する。
関連論文リスト
- Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [74.74225314708225]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。
本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:50:42Z) - Hierarchical Autoscaling for Large Language Model Serving with Chiron [2.767894999702707]
大規模言語モデル(LLM)のサービス提供は、クラウドプロバイダにとってますます重要なワークロードになりつつある。
LLMサービスのための以前のオートスケーラは、不要なスケーリングとリソースのアンダーユーティリティ化につながる要求SLOを考慮しない。
我々は,待ち行列サイズ,利用率,SLOを用いて推定した階層的バックプレッシャを用いた自動スケーラであるChironを紹介する。
論文 参考訳(メタデータ) (2025-01-14T12:57:40Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs [11.664088080448593]
LlamaDuo"は、サービス指向の大規模言語モデルから、より小さく、ローカルに管理可能なモデルに移行するためのパイプラインである。
当社のパイプラインは,運用上の障害や厳格なプライバシポリシ,あるいはオフライン要件の存在下でのサービス継続性の確保に不可欠です。
論文 参考訳(メタデータ) (2024-08-24T05:03:08Z) - HRSAM: Efficient Interactive Segmentation in High-Resolution Images [59.537068118473066]
Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限される。
本稿では,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。
この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
論文 参考訳(メタデータ) (2024-07-02T09:51:56Z) - FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model [48.33280660752336]
大規模言語モデル(LLM)は、適切なデータで微調整した後、多くのドメイン固有のタスクで素晴らしいパフォーマンスを示す。
多くのドメイン固有のデータは、プライベートに複数の所有者に分散される。
我々は,フェデレート学習のための資源効率の高いLLM微調整手法であるFedBiOTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T16:45:47Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents [103.28404907655542]
大規模言語モデル(LLM)は、自律エージェント(LAA)の新たな探索に繋がった。
本稿では,エージェントアーキテクチャとLLMバックボーンの両方の観点から,LAAの包括的な比較を行う。
我々は、複数のLAAを編成する新しい戦略を提案し、各LAAは、複数のエージェント間の通信を管理する制御器であるテキストティティ(textiti.e. BOLAA)に焦点をあてる。
論文 参考訳(メタデータ) (2023-08-11T06:37:54Z) - Fast Continuous and Integer L-shaped Heuristics Through Supervised
Learning [4.521119623956821]
混合整数線形二段階プログラムの解を高速化する手法を提案する。
我々は,第2段階の要求の高い問題を解決することを目的としている。
私たちの中核となる考え方は、オンラインソリューションの時間を大幅に削減し、第一段階ソリューションの精度を小さくすることです。
論文 参考訳(メタデータ) (2022-05-02T13:15:32Z) - Sinan: Data-Driven, QoS-Aware Cluster Management for Microservices [3.6923632650826477]
Sinanはインタラクティブクラウド用のデータ駆動クラスタマネージャで、オンラインであり、アロケーション・アウェアである。
インタラクティブクラウドのためのデータ駆動型クラスタマネージャであるSinanを,オンラインかつアロケーション・アウェアで紹介する。
論文 参考訳(メタデータ) (2021-05-27T19:57:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。