論文の概要: Towards Safe Load Balancing based on Control Barrier Functions and Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.05525v1
- Date: Wed, 10 Jan 2024 19:43:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 02:08:34.289856
- Title: Towards Safe Load Balancing based on Control Barrier Functions and Deep
Reinforcement Learning
- Title(参考訳): 制御障壁関数と深層強化学習に基づく安全負荷分散に向けて
- Authors: Lam Dinh, Pham Tran Anh Quang, J\'er\'emie Leguay
- Abstract要約: 我々は,SD-WAN(Software Defined-Wide Area Network)のための安全な学習に基づくロードバランシングアルゴリズムを提案する。
制御バリア関数(CBF)を併用した深層強化学習(DRL)によって強化される。
提案手法は,リンク容量制約に関する安全性要件を尊重しつつ,エンドツーエンドの遅延の観点から,ほぼ最適品質(QoS)を提供することを示す。
- 参考スコア(独自算出の注目度): 0.691367883100748
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep Reinforcement Learning (DRL) algorithms have recently made significant
strides in improving network performance. Nonetheless, their practical use is
still limited in the absence of safe exploration and safe decision-making. In
the context of commercial solutions, reliable and safe-to-operate systems are
of paramount importance. Taking this problem into account, we propose a safe
learning-based load balancing algorithm for Software Defined-Wide Area Network
(SD-WAN), which is empowered by Deep Reinforcement Learning (DRL) combined with
a Control Barrier Function (CBF). It safely projects unsafe actions into
feasible ones during both training and testing, and it guides learning towards
safe policies. We successfully implemented the solution on GPU to accelerate
training by approximately 110x times and achieve model updates for on-policy
methods within a few seconds, making the solution practical. We show that our
approach delivers near-optimal Quality-of-Service (QoS performance in terms of
end-to-end delay while respecting safety requirements related to link capacity
constraints. We also demonstrated that on-policy learning based on Proximal
Policy Optimization (PPO) performs better than off-policy learning with Deep
Deterministic Policy Gradient (DDPG) when both are combined with a CBF for safe
load balancing.
- Abstract(参考訳): 深層強化学習(DRL)アルゴリズムは近年,ネットワーク性能向上に大きく貢献している。
それでも、安全な探索と安全な意思決定がなければ、実用的利用は限られている。
商用ソリューションの文脈では、信頼性と安全な運用システムが最も重要である。
この問題を考慮し,Deep Reinforcement Learning (DRL) と制御バリア関数 (CBF) を併用した,SD-WAN(Software Defined-Wide Area Network) のための安全な学習ベースのロードバランシングアルゴリズムを提案する。
トレーニングとテストの両方において、安全でないアクションを実行可能なアクションに安全に投影し、安全ポリシーへの学習をガイドします。
約110倍のトレーニングを高速化し,数秒でオンプレミスメソッドのモデル更新を実現するために,GPU上でのソリューションの実装に成功した。
提案手法は,リンク容量制約に関する安全性要件を尊重しつつ,エンドツーエンドの遅延の観点から,ほぼ最適品質(QoS)性能を提供することを示す。
また,PPOに基づくオンライン学習は,安全負荷分散のためのCBFと組み合わせた場合,DDPG(Deep Deterministic Policy Gradient)を用いた非政治学習よりも優れていることを示した。
関連論文リスト
- Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Model-Based Safe Reinforcement Learning with Time-Varying State and
Control Constraints: An Application to Intelligent Vehicles [13.40143623056186]
本稿では、時間変化状態と制御制約を持つ非線形システムの最適制御のための安全なRLアルゴリズムを提案する。
多段階の政策評価機構が提案され、時間変化による安全制約の下での政策の安全性リスクを予測し、安全更新を誘導する。
提案アルゴリズムは、シミュレーションされたセーフティガイム環境において、最先端のRLアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2021-12-18T10:45:31Z) - Improving Safety in Deep Reinforcement Learning using Unsupervised
Action Planning [4.2955354157580325]
深層強化学習(Deep RL)における重要な課題の1つは、トレーニングとテストフェーズの両方で安全性を確保することである。
そこで本稿では,オンライン強化学習アルゴリズムの安全性を向上させるために,教師なし行動計画の新たな手法を提案する。
提案アルゴリズムは,離散制御と連続制御の両問題において,複数のベースラインと比較して高い報酬を得られることを示す。
論文 参考訳(メタデータ) (2021-09-29T10:26:29Z) - Safe Reinforcement Learning Using Advantage-Based Intervention [45.79740561754542]
多くのシーケンシャルな決定問題は、安全性の制約に従いながら全報酬を最大化するポリシーを見つけることである。
本稿では,エージェントの安全性を確保するために,アドバンテージ関数に基づく介入機構を用いた新しいアルゴリズムであるSAILRを提案する。
私たちの方法には、トレーニングとデプロイメントの両方において、安全性が強く保証されています。
論文 参考訳(メタデータ) (2021-06-16T20:28:56Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。