論文の概要: FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge
Computing Migrations
- arxiv url: http://arxiv.org/abs/2209.14399v1
- Date: Wed, 28 Sep 2022 19:49:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 18:23:00.850298
- Title: FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge
Computing Migrations
- Title(参考訳): fire: エッジコンピューティング移行のための障害対応強化学習フレームワーク
- Authors: Marie Siew, Shikhar Sharma, Kun Guo, Chao Xu, Tony Q.S. Quek and
Carlee Joe-Wong
- Abstract要約: エッジコンピューティングでは、ユーザのモビリティに応じて、ユーザのサービスプロファイルを移行する必要がある。
本稿では、重要サンプリングを強化学習に統合する、レアイベント適応型レジリエンスフレームワークFIREを紹介する。
当社のフレームワークは、遅延とマイグレーションのコスト、障害コスト、バックアップ配置とマイグレーションのコストのトレードオフをバランスさせています。
- 参考スコア(独自算出の注目度): 88.17754958080813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In edge computing, users' service profiles must be migrated in response to
user mobility. Reinforcement learning (RL) frameworks have been proposed to do
so. Nevertheless, these frameworks do not consider occasional server failures,
which although rare, can prevent the smooth and safe functioning of edge
computing users' latency sensitive applications such as autonomous driving and
real-time obstacle detection, because users' computing jobs can no longer be
completed. As these failures occur at a low probability, it is difficult for RL
algorithms, which are inherently data-driven, to learn an optimal service
migration solution for both the typical and rare event scenarios. Therefore, we
introduce a rare events adaptive resilience framework FIRE, which integrates
importance sampling into reinforcement learning to place backup services. We
sample rare events at a rate proportional to their contribution to the value
function, to learn an optimal policy. Our framework balances service migration
trade-offs between delay and migration costs, with the costs of failure and the
costs of backup placement and migration. We propose an importance sampling
based Q-learning algorithm, and prove its boundedness and convergence to
optimality. Following which we propose novel eligibility traces, linear
function approximation and deep Q-learning versions of our algorithm to ensure
it scales to real-world scenarios. We extend our framework to cater to users
with different risk tolerances towards failure. Finally, we use trace driven
experiments to show that our algorithm gives cost reductions in the event of
failures.
- Abstract(参考訳): エッジコンピューティングでは、ユーザモビリティに応じてユーザのサービスプロファイルを移行する必要があります。
強化学習(RL)フレームワークが提案されている。
しかしながら、これらのフレームワークは、まれではあるが、ユーザのコンピューティングジョブが完了できないため、自律運転やリアルタイム障害検出といった、エッジコンピューティングのレイテンシに敏感なアプリケーションのスムーズで安全な機能を防止することができる、時折サーバ障害を考慮しない。
これらの障害は低い確率で発生するため、本質的にデータ駆動であるrlアルゴリズムが、典型的なイベントシナリオとまれなイベントシナリオの両方に対して最適なサービスマイグレーションソリューションを学ぶことは困難である。
そこで我々は,強化学習に重要サンプリングを統合してバックアップサービスを配置する,まれなイベント適応型レジリエンスフレームワークFIREを提案する。
我々は,その値関数への寄与に比例した頻度でレアイベントをサンプリングし,最適なポリシーを学習する。
当社のフレームワークは、遅延コストとマイグレーションコストの間のサービス移行トレードオフと、障害のコストとバックアップ配置とマイグレーションのコストのバランスをとります。
重要サンプリングに基づくQ-ラーニングアルゴリズムを提案し,その有界性と最適性への収束性を証明する。
次に,線形関数近似と深部Q-ラーニングバージョンを新たに提案し,実世界のシナリオにスケールできるようにする。
私たちは、失敗に対するさまざまなリスク耐性を持つユーザに対応するために、私たちのフレームワークを拡張します。
最後に、トレース駆動実験を用いて、障害発生時のコスト削減をアルゴリズムが実現することを示す。
関連論文リスト
- OffRIPP: Offline RL-based Informative Path Planning [12.705099730591671]
IPPはロボット工学において重要なタスクであり、ターゲット環境に関する貴重な情報を収集するためには、エージェントが経路を設計する必要がある。
トレーニング中のリアルタイムインタラクションを必要とせずに情報ゲインを最適化するオフラインRLベースのIPPフレームワークを提案する。
我々は、広範囲なシミュレーションと実世界の実験を通して、この枠組みを検証する。
論文 参考訳(メタデータ) (2024-09-25T11:30:59Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - A Generative Framework for Low-Cost Result Validation of Machine Learning-as-a-Service Inference [4.478182379059458]
FidesはML-as-a-Service(ML)推論のリアルタイム整合性検証のための新しいフレームワークである。
Fidesは、統計的分析とばらつき測定を使用して、サービスモデルが攻撃を受けている場合、高い確率で識別するクライアント側攻撃検出モデルを備えている。
攻撃検出と再分類モデルの訓練のための生成的逆ネットワークフレームワークを考案した。
論文 参考訳(メタデータ) (2023-03-31T19:17:30Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Acceleration of Federated Learning with Alleviated Forgetting in Local
Training [61.231021417674235]
フェデレートラーニング(FL)は、プライバシを保護しながら機械学習モデルの分散最適化を可能にする。
我々は,FedRegを提案する。FedRegは,局所的な訓練段階において,知識を忘れることなくFLを加速するアルゴリズムである。
我々の実験は、FedRegはFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深い場合にも改善することを示した。
論文 参考訳(メタデータ) (2022-03-05T02:31:32Z) - Regularized Behavior Value Estimation [31.332929202377]
正規化行動値推定(R-BVE)を導入する。
R-BVEはトレーニング中の行動方針の価値を推定し、展開時にのみ政策改善を行います。
我々は,RL Unplugged ATARIデータセットの最先端性能を含む,R-BVEの有効性の実証的な証拠を多数提供する。
論文 参考訳(メタデータ) (2021-03-17T11:34:54Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。