論文の概要: Scalability Optimization in Cloud-Based AI Inference Services: Strategies for Real-Time Load Balancing and Automated Scaling
- arxiv url: http://arxiv.org/abs/2504.15296v1
- Date: Wed, 16 Apr 2025 04:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 02:28:09.776044
- Title: Scalability Optimization in Cloud-Based AI Inference Services: Strategies for Real-Time Load Balancing and Automated Scaling
- Title(参考訳): クラウドベースのAI推論サービスにおけるスケーラビリティ最適化 - リアルタイムロードバランシングと自動スケーリングのための戦略
- Authors: Yihong Jin, Ze Yang,
- Abstract要約: 本研究では,クラウドAI推論サービスのための拡張性最適化フレームワークを提案する。
提案モデルは,適応負荷分布に対する強化学習と,正確な需要予測のためのディープニューラルネットワークを組み合わせたハイブリッドアプローチである。
実験の結果,提案モデルでは負荷分散効率を35倍に向上し,応答遅延を28。
- 参考スコア(独自算出の注目度): 1.3689475854650441
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The rapid expansion of AI inference services in the cloud necessitates a robust scalability solution to manage dynamic workloads and maintain high performance. This study proposes a comprehensive scalability optimization framework for cloud AI inference services, focusing on real-time load balancing and autoscaling strategies. The proposed model is a hybrid approach that combines reinforcement learning for adaptive load distribution and deep neural networks for accurate demand forecasting. This multi-layered approach enables the system to anticipate workload fluctuations and proactively adjust resources, ensuring maximum resource utilisation and minimising latency. Furthermore, the incorporation of a decentralised decision-making process within the model serves to enhance fault tolerance and reduce response time in scaling operations. Experimental results demonstrate that the proposed model enhances load balancing efficiency by 35\ and reduces response delay by 28\, thereby exhibiting a substantial optimization effect in comparison with conventional scalability solutions.
- Abstract(参考訳): クラウドにおけるAI推論サービスの急速な拡張は、動的ワークロードを管理し、ハイパフォーマンスを維持するために、堅牢なスケーラビリティソリューションを必要とします。
本研究では、リアルタイムロードバランシングと自動スケーリング戦略に着目し、クラウドAI推論サービスのための包括的なスケーラビリティ最適化フレームワークを提案する。
提案モデルは,適応負荷分布に対する強化学習と,正確な需要予測のためのディープニューラルネットワークを組み合わせたハイブリッドアプローチである。
この多層的アプローチにより、システムはワークロードの変動を予測し、リソースを積極的に調整し、リソース利用の最大化とレイテンシの最小化を可能にする。
さらに、モデル内に分散意思決定プロセスが組み込まれたことにより、フォールトトレランスが向上し、スケール操作時の応答時間が短縮される。
実験結果から,提案モデルでは負荷分散効率を35倍に向上し,応答遅延を28倍に低減し,従来の拡張性ソリューションと比較してかなりの最適化効果を示した。
関連論文リスト
- Efficient Federated Split Learning for Large Language Models over Communication Networks [14.461758448289908]
分散方式で訓練済みの大規模言語モデル(LLM)を微調整することは、リソース制約のあるエッジデバイスに重大な課題をもたらす。
我々は,分割フェデレーション学習とパラメータ効率のよい微調整技術を統合する新しいフレームワークであるFedsLLMを提案する。
論文 参考訳(メタデータ) (2025-04-20T16:16:54Z) - Global-Decision-Focused Neural ODEs for Proactive Grid Resilience Management [50.34345101758248]
本稿では,機能停止予測とグローバルに最適化された介入を統合するフレームワークPATOGを提案する。
提案手法は,空間的かつ時間的に整合性のある意思決定を保証し,予測精度と操作効率を両立させる。
合成および実世界のデータセットの実験では、停止予測一貫性とグリッドレジリエンスが大幅に改善された。
論文 参考訳(メタデータ) (2025-02-25T16:15:35Z) - Reinforcement Learning-Based Adaptive Load Balancing for Dynamic Cloud Environments [0.0]
これらの課題に対処するために,Reinforcement Learning (RL) を用いた適応型ロードバランシングフレームワークを提案する。
我々のフレームワークは、タスクを動的に再配置し、レイテンシを最小化し、サーバ間のリソース利用のバランスを確保するように設計されています。
実験の結果,提案したRLベースのロードバランサは,応答時間,資源利用量,ワークロードの変化に対する適応性などの観点から,従来のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-07T19:40:48Z) - Optimization Hyper-parameter Laws for Large Language Models [52.49860340549727]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - Neural Horizon Model Predictive Control -- Increasing Computational Efficiency with Neural Networks [0.0]
予測制御をモデル化するための機械学習支援手法を提案する。
安全保証を維持しつつ,問題地平線の一部を近似することを提案する。
提案手法は,迅速な制御応答を必要とするアプリケーションを含む,幅広いアプリケーションに適用可能である。
論文 参考訳(メタデータ) (2024-08-19T08:13:37Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - OptScaler: A Collaborative Framework for Robust Autoscaling in the Cloud [10.97507717758812]
最適化モジュールを通じてプロアクティブおよびリアクティブモジュールを統合する,協調的な自動スケーリングフレームワークであるOpsScalerを提案する。
数値計算の結果,ワークロード予測モデルと協調フレームワークの優位性が示された。
論文 参考訳(メタデータ) (2023-10-26T04:38:48Z) - Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - Predictive GAN-powered Multi-Objective Optimization for Hybrid Federated
Split Learning [56.125720497163684]
無線ネットワークにおけるハイブリッド・フェデレーション・スプリット・ラーニング・フレームワークを提案する。
ラベル共有のないモデル分割のための並列計算方式を設計し,提案方式が収束速度に与える影響を理論的に解析する。
論文 参考訳(メタデータ) (2022-09-02T10:29:56Z) - A Meta Reinforcement Learning Approach for Predictive Autoscaling in the
Cloud [10.970391043991363]
本稿では,CPU利用の安定レベルを維持するために資源を最適に割り当てることを目的とした,エンドツーエンドのメタモデルに基づくRLアルゴリズムを提案する。
当社のアルゴリズムは,スケーリング戦略の予測可能性と精度を確保するだけでなく,スケーリング決定が変化するワークロードに高いサンプル効率で適応できるようにする。
論文 参考訳(メタデータ) (2022-05-31T13:54:04Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。