論文の概要: A Deep Recurrent-Reinforcement Learning Method for Intelligent
AutoScaling of Serverless Functions
- arxiv url: http://arxiv.org/abs/2308.05937v1
- Date: Fri, 11 Aug 2023 04:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 15:04:27.398732
- Title: A Deep Recurrent-Reinforcement Learning Method for Intelligent
AutoScaling of Serverless Functions
- Title(参考訳): サーバーレス機能のインテリジェント自動スケーリングのための深部繰り返し強化学習法
- Authors: Siddharth Agarwal, Maria A. Rodriguez and Rajkumar Buyya
- Abstract要約: 本稿では,関数オートスケーリングのためのモデルフリーリカレントRLエージェントについて検討し,モデルフリー近似ポリシー最適化アルゴリズムと比較する。
LSTMベースのオートスケーリングエージェントは、スループットを18%向上し、関数の実行を13%向上し、関数インスタンスを8.4%増やすことができる。
- 参考スコア(独自算出の注目度): 21.260954070091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Function-as-a-Service (FaaS) introduces a lightweight, function-based cloud
execution model that finds its relevance in applications like IoT-edge data
processing and anomaly detection. While CSP offer a near-infinite function
elasticity, these applications often experience fluctuating workloads and
stricter performance constraints. A typical CSP strategy is to empirically
determine and adjust desired function instances, "autoscaling", based on
monitoring-based thresholds such as CPU or memory, to cope with demand and
performance. However, threshold configuration either requires expert knowledge,
historical data or a complete view of environment, making autoscaling a
performance bottleneck lacking an adaptable solution.RL algorithms are proven
to be beneficial in analysing complex cloud environments and result in an
adaptable policy that maximizes the expected objectives. Most realistic cloud
environments usually involve operational interference and have limited
visibility, making them partially observable. A general solution to tackle
observability in highly dynamic settings is to integrate Recurrent units with
model-free RL algorithms and model a decision process as a POMDP. Therefore, in
this paper, we investigate a model-free Recurrent RL agent for function
autoscaling and compare it against the model-free Proximal Policy Optimisation
(PPO) algorithm. We explore the integration of a LSTM network with the
state-of-the-art PPO algorithm to find that under our experimental and
evaluation settings, recurrent policies were able to capture the environment
parameters and show promising results for function autoscaling. We further
compare a PPO-based autoscaling agent with commercially used threshold-based
function autoscaling and posit that a LSTM-based autoscaling agent is able to
improve throughput by 18%, function execution by 13% and account for 8.4% more
function instances.
- Abstract(参考訳): FaaS(Function-as-a-Service)は、IoTエッジデータ処理や異常検出といったアプリケーションにその関連性を見出す、軽量な関数ベースのクラウド実行モデルである。
CSPは、ほぼ無限の機能弾力性を提供するが、これらのアプリケーションは、変動するワークロードと厳格なパフォーマンス制約を経験することが多い。
典型的なCSP戦略は、要求とパフォーマンスに対処するために、CPUやメモリなどの監視ベースのしきい値に基づいて、所望の関数インスタンス"オートスケーリング"を経験的に決定し、調整することである。
しかし、しきい値の設定には専門家の知識、履歴データ、あるいは環境の完全なビューが必要であるため、適応可能なソリューションが欠如しているパフォーマンスボトルネックをオートスケーリングすることで、複雑なクラウド環境の分析にRLアルゴリズムが有用であることが証明され、その結果、期待される目標を最大化する適応可能なポリシーがもたらされる。
ほとんどの現実的なクラウド環境は運用上の干渉を伴い、可視性が制限され、部分的に観測可能である。
高ダイナミックな環境で観測可能性に取り組むための一般的な解決策は、リカレントユニットをモデルのないRLアルゴリズムと統合し、決定過程をPOMDPとしてモデル化することである。
そこで本研究では,関数自動スケーリングのためのモデルフリーリカレントrlエージェントについて検討し,モデルフリーの近近方最適化 (ppo) アルゴリズムと比較する。
我々は,lstmネットワークと最先端ppoアルゴリズムの統合について検討し,実験および評価環境では,リカレントポリシが環境パラメータをキャプチャし,機能自動スケーリングに有望な結果を示すことができることを確認した。
さらに,ppoベースのオートスケーリングエージェントと市販のしきい値ベースのオートスケーリングを比較し,lstmベースのオートスケーリングエージェントがスループットを18%向上し,関数の実行を13%,関数インスタンスを8.4%向上できることを示す。
関連論文リスト
- REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - Minimax Optimal and Computationally Efficient Algorithms for Distributionally Robust Offline Reinforcement Learning [6.969949986864736]
分散ロバストなオフライン強化学習(RL)は、力学の不確実性をモデル化することによって環境摂動に対する堅牢な政策訓練を求める。
関数近似を実現するために,最小限の最適化と計算効率のアルゴリズムを提案する。
その結果、ロバストなオフラインRLの関数近似は、標準のオフラインRLと本質的に異なり、おそらくは難しいことが判明した。
論文 参考訳(メタデータ) (2024-03-14T17:55:10Z) - OptScaler: A Hybrid Proactive-Reactive Framework for Robust Autoscaling
in the Cloud [11.340252931723063]
オートスケーリングはクラウドコンピューティングにおいて重要なメカニズムであり、動的ワークロード下でのコンピューティングリソースの自律的な調整をサポートする。
既存のアクティブ自動スケーリングメソッドは将来のワークロードを予測し、事前にリソースをスケールしますが、リアクティブメソッドはリアルタイムシステムフィードバックに依存します。
本稿では,CPU利用制御のためのプロアクティブ手法とリアクティブ手法の両方のパワーを統合するハイブリッド自動スケーリングフレームワークであるOpsScalerを提案する。
論文 参考訳(メタデータ) (2023-10-26T04:38:48Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - A Meta Reinforcement Learning Approach for Predictive Autoscaling in the
Cloud [10.970391043991363]
本稿では,CPU利用の安定レベルを維持するために資源を最適に割り当てることを目的とした,エンドツーエンドのメタモデルに基づくRLアルゴリズムを提案する。
当社のアルゴリズムは,スケーリング戦略の予測可能性と精度を確保するだけでなく,スケーリング決定が変化するワークロードに高いサンプル効率で適応できるようにする。
論文 参考訳(メタデータ) (2022-05-31T13:54:04Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Blending MPC & Value Function Approximation for Efficient Reinforcement
Learning [42.429730406277315]
モデル予測制御(MPC)は、複雑な実世界のシステムを制御する強力なツールである。
モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。
我々は,本手法がmpcに匹敵する性能と真のダイナミクスを両立できることを示す。
論文 参考訳(メタデータ) (2020-12-10T11:32:01Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。