Fugu-MT 論文翻訳(概要): Analytically-Driven Resource Management for Cloud-Native Microservices

論文の概要: Analytically-Driven Resource Management for Cloud-Native Microservices

arxiv url: http://arxiv.org/abs/2401.02920v1
Date: Fri, 5 Jan 2024 17:55:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-08 14:25:35.995465
Title: Analytically-Driven Resource Management for Cloud-Native Microservices
Title（参考訳）: クラウドネイティブマイクロサービスのための分析駆動型リソース管理
Authors: Yanqi Zhang and Zhuangzhuang Zhou and Sameh Elnikety and Christina Delimitrou
Abstract要約: クラウドネイティブのための軽量リソース管理システムであるUrsaを紹介する。 UsaはエンドツーエンドのSLAパイプラインをサービス毎のSLAに分解し、サービス毎のSLAを層毎のリソース割り当てにマップする。我々はUrsaを、ソーシャルネットワーク、メディアサービス、ビデオ処理を含む、代表的およびエンドツーエンドのマイクロサービストポロジのセットで評価する。
参考スコア（独自算出の注目度）: 3.1022510428295287
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Resource management for cloud-native microservices has attracted a lot of recent attention. Previous work has shown that machine learning (ML)-driven approaches outperform traditional techniques, such as autoscaling, in terms of both SLA maintenance and resource efficiency. However, ML-driven approaches also face challenges including lengthy data collection processes and limited scalability. We present Ursa, a lightweight resource management system for cloud-native microservices that addresses these challenges. Ursa uses an analytical model that decomposes the end-to-end SLA into per-service SLA, and maps per-service SLA to individual resource allocations per microservice tier. To speed up the exploration process and avoid prolonged SLA violations, Ursa explores each microservice individually, and swiftly stops exploration if latency exceeds its SLA. We evaluate Ursa on a set of representative and end-to-end microservice topologies, including a social network, media service and video processing pipeline, each consisting of multiple classes and priorities of requests with different SLAs, and compare it against two representative ML-driven systems, Sinan and Firm. Compared to these ML-driven approaches, Ursa provides significant advantages: It shortens the data collection process by more than 128x, and its control plane is 43x faster than ML-driven approaches. At the same time, Ursa does not sacrifice resource efficiency or SLAs. During online deployment, Ursa reduces the SLA violation rate by 9.0% up to 49.9%, and reduces CPU allocation by up to 86.2% compared to ML-driven approaches.
Abstract（参考訳）: クラウドネイティブなマイクロサービスのためのリソース管理は、最近多くの注目を集めている。これまでの研究によると、機械学習(ML)によるアプローチは、SLAのメンテナンスとリソース効率の両方の観点から、オートスケーリングのような従来のテクニックよりも優れている。しかし、ML駆動のアプローチは、長いデータ収集プロセスや限られたスケーラビリティといった課題にも直面する。このような課題に対処する,クラウドネイティブマイクロサービス用の軽量リソース管理システムであるursaを提案する。 Ursaは分析モデルを使用して、エンドツーエンドのSLAをサービス毎のSLAに分解し、サービス毎のSLAをマイクロサービス層毎のリソース割り当てにマップする。探索プロセスをスピードアップし、長期にわたるSLA違反を回避するため、Ursaは個々のマイクロサービスを個別に探索し、レイテンシがSLAを超えた場合、素早く探索を停止する。我々はUrsaを、ソーシャルネットワーク、メディアサービス、ビデオ処理パイプラインを含む代表的およびエンドツーエンドのマイクロサービストポロジのセットで評価し、それぞれ異なるSLAで複数のクラスとリクエストの優先順位で構成され、それを2つの代表的ML駆動システムであるSinanとFirmと比較した。 ml駆動のアプローチと比較して、ursaには大きなメリットがある。データ収集プロセスを128倍以上に短縮し、そのコントロールプレーンはml駆動のアプローチよりも43倍高速である。同時に、Ursaはリソース効率やSLAを犠牲にしません。オンラインデプロイメント中、UrsaはSLA違反率を9.0%から49.9%に下げ、ML駆動のアプローチと比較してCPU割り当てを86.2%削減する。

関連論文リスト

SLA-MORL: SLA-Aware Multi-Objective Reinforcement Learning for HPC Resource Optimization [0.9026828778470117]
本稿では、ユーザの好みに基づいてリソースをインテリジェントに割り当てる適応型多目的強化学習フレームワークSLA-MORLを提案する。 SLA-MORLは、納期クリティカルなジョブのトレーニング時間を67.2%削減し、予算制約のあるワークロードのコストを68.8%削減し、静的ベースラインと比較してSLA全体の73.4%改善したことを示す。
論文参考訳（メタデータ） (2025-08-05T14:37:24Z)
Quality-of-Service Aware LLM Routing for Edge Computing with Multiple Experts [18.479200918676575]
大きな言語モデル(LLM)は目覚ましい機能を示しており、LLMサービスのユーザ需要が大幅に増加した。しかしながら、クラウドベースのLLMサービスは、高いレイテンシ、不安定な応答性、プライバシの懸念に悩まされることが多い。本稿では,持続的高品質LLMサービスのための深層強化学習に基づくルーティングフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-01T00:45:15Z)
How to Train Your LLM Web Agent: A Statistical Diagnosis [102.04125085041473]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文参考訳（メタデータ） (2025-07-05T17:12:33Z)
DILEMMA: Joint LLM Quantization and Distributed LLM Inference Over Edge Computing Systems [1.14179290793997]
本稿では,エッジコンピューティングシステムに大規模言語モデルをデプロイする際の課題に対処する新しいフレームワークであるDILEMMAを紹介する。 DILEMMAは線形プログラミングの問題を定式化し、総遅延を最小限に抑えつつ、許容可能なLLM性能レベルを確保している。モデル損失を保ちながら、最大で12.75%の量子化比を達成し、資源制約のある環境での有効性を強調している。
論文参考訳（メタデータ） (2025-03-03T16:16:33Z)
Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent Attention in Any Transformer-based LLMs [74.74225314708225]
MLA(Multi-head Latent Attention)は、効率的かつ経済的推論を保証するために設計された革新的なアーキテクチャである。本稿では,マルチヘッドアテンションからMLAへの移行のための,データ効率の良いファインチューニング手法を提案する。
論文参考訳（メタデータ） (2025-02-20T18:50:42Z)
Hierarchical Autoscaling for Large Language Model Serving with Chiron [2.767894999702707]
大規模言語モデル(LLM)のサービス提供は、クラウドプロバイダにとってますます重要なワークロードになりつつある。 LLMサービスのための以前のオートスケーラは、不要なスケーリングとリソースのアンダーユーティリティ化につながる要求SLOを考慮しない。我々は,待ち行列サイズ,利用率,SLOを用いて推定した階層的バックプレッシャを用いた自動スケーラであるChironを紹介する。
論文参考訳（メタデータ） (2025-01-14T12:57:40Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
LlamaDuo: LLMOps Pipeline for Seamless Migration from Service LLMs to Small-Scale Local LLMs [11.664088080448593]
LlamaDuo"は、サービス指向の大規模言語モデルから、より小さく、ローカルに管理可能なモデルに移行するためのパイプラインである。当社のパイプラインは,運用上の障害や厳格なプライバシポリシ,あるいはオフライン要件の存在下でのサービス継続性の確保に不可欠です。
論文参考訳（メタデータ） (2024-08-24T05:03:08Z)
HRSAM: Efficient Interactive Segmentation in High-Resolution Images [59.537068118473066]
Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限される。本稿では,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
論文参考訳（メタデータ） (2024-07-02T09:51:56Z)
FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model [48.33280660752336]
大規模言語モデル(LLM)は、適切なデータで微調整した後、多くのドメイン固有のタスクで素晴らしいパフォーマンスを示す。多くのドメイン固有のデータは、プライベートに複数の所有者に分散される。我々は,フェデレート学習のための資源効率の高いLLM微調整手法であるFedBiOTを紹介する。
論文参考訳（メタデータ） (2024-06-25T16:45:47Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents [103.28404907655542]
大規模言語モデル(LLM)は、自律エージェント(LAA)の新たな探索に繋がった。本稿では,エージェントアーキテクチャとLLMバックボーンの両方の観点から,LAAの包括的な比較を行う。我々は、複数のLAAを編成する新しい戦略を提案し、各LAAは、複数のエージェント間の通信を管理する制御器であるテキストティティ(textiti.e. BOLAA)に焦点をあてる。
論文参考訳（メタデータ） (2023-08-11T06:37:54Z)
Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference Serving Systems [0.0]
InfAdapterは、レイテンシSLOを満たすために、リソース割り当てでMLモデルの一連の変種を積極的に選択する。 SLO違反を減らし、業界で人気のオートスケーラと比較して、それぞれ65%と33%に値下げする。
論文参考訳（メタデータ） (2023-04-21T11:19:49Z)
Fast Continuous and Integer L-shaped Heuristics Through Supervised Learning [4.521119623956821]
混合整数線形二段階プログラムの解を高速化する手法を提案する。我々は,第2段階の要求の高い問題を解決することを目的としている。私たちの中核となる考え方は、オンラインソリューションの時間を大幅に削減し、第一段階ソリューションの精度を小さくすることです。
論文参考訳（メタデータ） (2022-05-02T13:15:32Z)
DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文参考訳（メタデータ） (2022-03-17T02:38:49Z)
Sinan: Data-Driven, QoS-Aware Cluster Management for Microservices [3.6923632650826477]
Sinanはインタラクティブクラウド用のデータ駆動クラスタマネージャで、オンラインであり、アロケーション・アウェアである。インタラクティブクラウドのためのデータ駆動型クラスタマネージャであるSinanを,オンラインかつアロケーション・アウェアで紹介する。
論文参考訳（メタデータ） (2021-05-27T19:57:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。