Fugu-MT 論文翻訳(概要): Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference Serving Systems

論文の概要: Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference Serving Systems

arxiv url: http://arxiv.org/abs/2304.10892v2
Date: Mon, 24 Apr 2023 12:47:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-25 11:11:06.730625
Title: Reconciling High Accuracy, Cost-Efficiency, and Low Latency of Inference Serving Systems
Title（参考訳）: 推論サービスシステムの高精度、コスト効率、低レイテンシの調整
Authors: Mehran Salmani (1), Saeid Ghafouri (2 and 4), Alireza Sanaee (2), Kamran Razavi (3), Max M\"uhlh\"auser (3), Joseph Doyle (2), Pooyan Jamshidi (4), Mohsen Sharifi (1) ((1) Iran University of Science and Technology, (2) Queen Mary University of London, (3) Technical University of Darmstadt, (4) University of South Carolina)
Abstract要約: InfAdapterは、レイテンシSLOを満たすために、リソース割り当てでMLモデルの一連の変種を積極的に選択する。 SLO違反を減らし、業界で人気のオートスケーラと比較して、それぞれ65%と33%に値下げする。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The use of machine learning (ML) inference for various applications is growing drastically. ML inference services engage with users directly, requiring fast and accurate responses. Moreover, these services face dynamic workloads of requests, imposing changes in their computing resources. Failing to right-size computing resources results in either latency service level objectives (SLOs) violations or wasted computing resources. Adapting to dynamic workloads considering all the pillars of accuracy, latency, and resource cost is challenging. In response to these challenges, we propose InfAdapter, which proactively selects a set of ML model variants with their resource allocations to meet latency SLO while maximizing an objective function composed of accuracy and cost. InfAdapter decreases SLO violation and costs up to 65% and 33%, respectively, compared to a popular industry autoscaler (Kubernetes Vertical Pod Autoscaler).
Abstract（参考訳）: さまざまなアプリケーションに対する機械学習(ML)推論の利用は、急速に増加している。 ML推論サービスは、ユーザに直接関与し、迅速かつ正確な応答を必要とする。さらに、これらのサービスは要求の動的ワークロードに直面し、コンピューティングリソースの変更を暗示します。適切なサイズのコンピューティングリソースに失敗すると、レイテンシサービスレベル目標(SLO)違反または無駄なコンピューティングリソースが発生します。正確性、レイテンシ、リソースコストのすべての柱を考慮した動的ワークロードへの適応は困難である。 InfAdapterは、そのリソース割り当てでMLモデルの変種を積極的に選択してレイテンシSLOを満たすとともに、精度とコストからなる目的関数を最大化する。 InfAdapterは、人気の業界オートスケーラ(Kubernetes Vertical Pod Autoscaler)と比較して、SLO違反を減らし、それぞれ65%と33%のコストを削減している。

関連論文リスト

Scalability Optimization in Cloud-Based AI Inference Services: Strategies for Real-Time Load Balancing and Automated Scaling [1.3689475854650441]
本研究では,クラウドAI推論サービスのための拡張性最適化フレームワークを提案する。提案モデルは,適応負荷分布に対する強化学習と,正確な需要予測のためのディープニューラルネットワークを組み合わせたハイブリッドアプローチである。実験の結果,提案モデルでは負荷分散効率を35倍に向上し,応答遅延を28。
論文参考訳（メタデータ） (2025-04-16T04:00:04Z)
Smart Routing: Cost-Effective Multi-LLM Serving for Multi-Core AIOS [31.60019342381251]
既存のスケジューリングフレームワークは主にレイテンシの最適化をターゲットとしている。本稿では,マルチLLMサービスのための高効率能率協調スケジューリングフレームワークECCOSを提案する。
論文参考訳（メタデータ） (2025-02-27T22:35:31Z)
Network Resource Optimization for ML-Based UAV Condition Monitoring with Vibration Analysis [54.550658461477106]
条件監視(CM)は機械学習(ML)モデルを使用して異常および異常な条件を識別する。本研究では,MLベースのUAV CMフレームワークにおけるネットワークリソースの最適化について検討する。次元削減技術を活用することで、ネットワークリソース消費の99.9%が削減される。
論文参考訳（メタデータ） (2025-02-21T14:36:12Z)
MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文参考訳（メタデータ） (2025-02-09T02:26:15Z)
Towards Resource-Efficient Federated Learning in Industrial IoT for Multivariate Time Series Analysis [50.18156030818883]
異常と欠落したデータは、産業応用における厄介な問題を構成する。ディープラーニングによる異常検出が重要な方向として現れている。エッジデバイスで収集されたデータは、ユーザのプライバシを含む。
論文参考訳（メタデータ） (2024-11-06T15:38:31Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
我々は、フェデレーション学習(FL)によるプライバシーを確保しつつ、サービスのデータ提供を容易にする没入型モデルトレーディングフレームワークを提案する。我々は,資源制約下での高価値モデルに貢献するために,メタバースユーザ(MU)にインセンティブを与えるインセンティブ機構を設計する。我々は、MUやその他のMSPに関するプライベート情報にアクセスすることなく、深層強化学習に基づく完全に分散された動的報酬アルゴリズムを開発する。
論文参考訳（メタデータ） (2024-10-25T16:20:46Z)
Adaptive Stream Processing on Edge Devices through Active Inference [5.5676731834895765]
アクティブ推論(AIF)に基づく新しい機械学習パラダイムを提案する。 AIFは、脳が長期的サプライズを減らすために感覚情報を常に予測し、評価する方法を記述している。本手法は意思決定の完全透明性を保証し,結果の解釈とトラブルシューティングを無力化する。
論文参考訳（メタデータ） (2024-09-26T15:12:41Z)
Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文参考訳（メタデータ） (2024-05-07T17:44:54Z)
SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees [21.801053526411415]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクの性能を大幅に向上させた。高性能LLMの配備は、主にモデル性能の向上を目的としたパラメータの増大により、かなりのコストがかかる。 SMARTは,NLPタスクの推論コストを最小限に抑えつつ,十分な結果品質を確保するために設計された新しいフレームワークである。
論文参考訳（メタデータ） (2024-03-11T17:45:47Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
Multi-Level ML Based Burst-Aware Autoscaling for SLO Assurance and Cost Efficiency [3.5624365288866007]
本稿では、複雑なワークロード下でコンテナ化されたクラウドサービスやアプリケーションのためのBurst-Aware AutoscalingフレームワークであるBAScalerを紹介します。 BAScalerには、予測可能な周期的なワークロードスパイクと実際のバーストを区別する、予測に基づく新しいバースト検出機構が組み込まれている。
論文参考訳（メタデータ） (2024-02-20T12:28:25Z)
Lifelong Learning for Fog Load Balancing: A Transfer Learning Approach [0.7366405857677226]
待ち時間の最小化により,IoTアプリケーションの実行遅延を最適化するプライバシ対応強化学習(RL)エージェントの性能向上を図る。本稿では,行動遅延を最小限に抑えるために軽量推論モデルを用いて,環境変化が著しい場合にのみ再訓練を行う,これらのエージェントのための生涯学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-08T14:49:33Z)
FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。 ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。 FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文参考訳（メタデータ） (2022-09-28T19:49:39Z)
A Predictive Autoscaler for Elastic Batch Jobs [8.354712625979776]
Deep Learning、HPC、Sparkといった大規模なバッチジョブは、従来のオンラインサービスよりもはるかに多くの計算リソースとコストを必要とします。顧客とオーバプロビジョンインスタンスに対して,柔軟なインターフェースを提供するための予測オートスケーラを提案する。
論文参考訳（メタデータ） (2020-10-10T17:35:55Z)
Optimization-driven Machine Learning for Intelligent Reflecting Surfaces Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文参考訳（メタデータ） (2020-08-29T08:39:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。