論文の概要: Remote Electrical Tilt Optimization via Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.05842v2
- Date: Fri, 15 Jan 2021 13:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 07:45:11.426270
- Title: Remote Electrical Tilt Optimization via Safe Reinforcement Learning
- Title(参考訳): 安全強化学習による遠隔電気傾き最適化
- Authors: Filippo Vannella, Grigorios Iakovidis, Ezeddin Al Hakim, Erik Aumayr,
Saman Feghhi
- Abstract要約: リモート電気ティルト(RET)最適化は、ネットワークのキーパフォーマンス指標(KPI)を最適化するために、基地局(BS)アンテナの垂直傾き角を調整する効率的な方法である。
本研究では、傾き制御戦略の学習を目的とした安全強化学習(SRL)フレームワークにおけるRET最適化問題をモデル化する。
実験の結果,提案手法は安全で改良された傾き更新ポリシーを学習でき,信頼性が高く,現実のネットワーク展開の可能性も高いことがわかった。
- 参考スコア(独自算出の注目度): 1.2599533416395765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote Electrical Tilt (RET) optimization is an efficient method for
adjusting the vertical tilt angle of Base Stations (BSs) antennas in order to
optimize Key Performance Indicators (KPIs) of the network. Reinforcement
Learning (RL) provides a powerful framework for RET optimization because of its
self-learning capabilities and adaptivity to environmental changes. However, an
RL agent may execute unsafe actions during the course of its interaction, i.e.,
actions resulting in undesired network performance degradation. Since the
reliability of services is critical for Mobile Network Operators (MNOs), the
prospect of performance degradation has prohibited the real-world deployment of
RL methods for RET optimization. In this work, we model the RET optimization
problem in the Safe Reinforcement Learning (SRL) framework with the goal of
learning a tilt control strategy providing performance improvement guarantees
with respect to a safe baseline. We leverage a recent SRL method, namely Safe
Policy Improvement through Baseline Bootstrapping (SPIBB), to learn an improved
policy from an offline dataset of interactions collected by the safe baseline.
Our experiments show that the proposed approach is able to learn a safe and
improved tilt update policy, providing a higher degree of reliability and
potential for real-world network deployment.
- Abstract(参考訳): リモート電気ティルト(RET)最適化は、ネットワークのキーパフォーマンス指標(KPI)を最適化するために、基地局(BS)アンテナの垂直傾き角を調整する効率的な方法である。
強化学習(RL)は、自己学習能力と環境変化への適応性のために、RET最適化のための強力なフレームワークを提供する。
しかし、RLエージェントはその相互作用の過程で安全でないアクション、すなわち、望ましくないネットワーク性能が低下するアクションを実行することができる。
モバイル・ネットワーク・オペレーター(MNO)にとってサービスの信頼性は重要であり、性能劣化の可能性はRET最適化のためのRLメソッドの現実的な展開を禁止している。
本研究では,安全基準に対する性能改善の保証を提供する傾き制御戦略の学習を目的とした,安全強化学習(SRL)フレームワークにおけるRET最適化問題をモデル化する。
本稿では,最近のsrl手法であるベースラインブートストラップ(spibb)による安全なポリシー改善を活用し,safeベースラインが収集したインタラクションのオフラインデータセットから,ポリシーの改善を学習する。
実験の結果,提案手法は安全かつ改良されたティルト更新ポリシーを学習でき,より高い信頼性と実世界のネットワーク展開の可能性が得られた。
関連論文リスト
- Hybrid Reinforcement Learning for Optimizing Pump Sustainability in
Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。
我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。
進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文 参考訳(メタデータ) (2023-10-13T21:26:16Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Knowledge Transfer in Deep Reinforcement Learning for Slice-Aware
Mobility Robustness Optimization [0.8937905773981699]
深い強化学習に基づくスライス・アウェア・モビリティ・ロバストネス最適化(SAMRO)手法を提案する。
スライス固有のハンドオーバパラメータを最適化することで、スライス毎のサービス保証によるハンドオーバパフォーマンスを向上させる。
1) オフライン強化学習の正規化,2) 複合体験リプレイによる効果的なオンライン微調整。
論文 参考訳(メタデータ) (2022-03-07T09:26:15Z) - Controlled Deep Reinforcement Learning for Optimized Slice Placement [0.8459686722437155]
我々は、"Heuristally Assisted Deep Reinforcement Learning (HA-DRL)"と呼ばれるハイブリッドML-ヒューリスティックアプローチを提案する。
提案手法は,最近のDeep Reinforcement Learning (DRL) によるスライス配置と仮想ネットワーク埋め込み (VNE) に活用されている。
評価結果から,提案したHA-DRLアルゴリズムは,効率的なスライス配置ポリシーの学習を高速化できることが示された。
論文 参考訳(メタデータ) (2021-08-03T14:54:00Z) - Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。
我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。
ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文 参考訳(メタデータ) (2021-06-03T16:45:40Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - A Safe Reinforcement Learning Architecture for Antenna Tilt Optimisation [2.099922236065961]
環境との安全な相互作用は、実世界の問題に適用する場合、強化学習(RL)の最も難しい側面の1つである。
遠隔電気ティルト最適化(RET)は、基地局のアンテナ傾斜角の探索的な修正によりネットワークの性能が著しく低下するおそれのある安全クリティカルなアプリケーションである。
セルラーネットワークにおけるRET最適化に対処するために,モジュール型Safe Reinforcement Learningアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-02T16:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。