論文の概要: Safe and Accelerated Deep Reinforcement Learning-based O-RAN Slicing: A
Hybrid Transfer Learning Approach
- arxiv url: http://arxiv.org/abs/2309.07265v2
- Date: Mon, 18 Sep 2023 18:28:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 18:37:36.388330
- Title: Safe and Accelerated Deep Reinforcement Learning-based O-RAN Slicing: A
Hybrid Transfer Learning Approach
- Title(参考訳): 深層強化学習に基づくO-RANスライシング : ハイブリッドトランスファー学習アプローチ
- Authors: Ahmad M. Nagib, Hatem Abou-Zeid, and Hossam S. Hassanein
- Abstract要約: 我々は,DRLをベースとしたO-RANスライシングにおいて,安全かつ迅速な収束を実現するためのハイブリッドTL支援手法を提案し,設計する。
提案されたハイブリッドアプローチは、少なくとも7.7%と20.7%は、平均的な初期報酬値と収束シナリオの割合を改善している。
- 参考スコア(独自算出の注目度): 20.344810727033327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The open radio access network (O-RAN) architecture supports intelligent
network control algorithms as one of its core capabilities. Data-driven
applications incorporate such algorithms to optimize radio access network (RAN)
functions via RAN intelligent controllers (RICs). Deep reinforcement learning
(DRL) algorithms are among the main approaches adopted in the O-RAN literature
to solve dynamic radio resource management problems. However, despite the
benefits introduced by the O-RAN RICs, the practical adoption of DRL algorithms
in real network deployments falls behind. This is primarily due to the slow
convergence and unstable performance exhibited by DRL agents upon deployment
and when encountering previously unseen network conditions. In this paper, we
address these challenges by proposing transfer learning (TL) as a core
component of the training and deployment workflows for the DRL-based
closed-loop control of O-RAN functionalities. To this end, we propose and
design a hybrid TL-aided approach that leverages the advantages of both policy
reuse and distillation TL methods to provide safe and accelerated convergence
in DRL-based O-RAN slicing. We conduct a thorough experiment that accommodates
multiple services, including real VR gaming traffic to reflect practical
scenarios of O-RAN slicing. We also propose and implement policy reuse and
distillation-aided DRL and non-TL-aided DRL as three separate baselines. The
proposed hybrid approach shows at least: 7.7% and 20.7% improvements in the
average initial reward value and the percentage of converged scenarios, and a
64.6% decrease in reward variance while maintaining fast convergence and
enhancing the generalizability compared with the baselines.
- Abstract(参考訳): オープン無線アクセスネットワーク(O-RAN)アーキテクチャは、そのコア機能のひとつとしてインテリジェントネットワーク制御アルゴリズムをサポートしている。
データ駆動型アプリケーションは、RANインテリジェントコントローラ(RIC)を介して無線アクセスネットワーク(RAN)機能を最適化するためにそのようなアルゴリズムを組み込んでいる。
深部強化学習(DRL)アルゴリズムは、O-RAN文献で採用されている動的無線資源管理問題を解決する主要なアプローチの一つである。
しかし、O-RAN RICsが導入した利点にもかかわらず、実際のネットワーク展開におけるDRLアルゴリズムの実践的採用は遅れている。
これは主に、DRLエージェントが展開時に、およびこれまで見つからなかったネットワーク条件に遭遇したときに、緩やかな収束と不安定な性能によって生じる。
本稿では、DRLに基づくO-RAN機能のクローズループ制御のためのトレーニングおよびデプロイメントワークフローのコアコンポーネントとして転送学習(TL)を提案する。
そこで本研究では, DRLをベースとしたO-RANスライシングにおける安全かつ迅速な収束を実現するために, 政策再利用と蒸留TL法の両方の利点を生かしたハイブリッドTL支援手法を提案し, 設計する。
我々は、O-RANスライシングの現実的なシナリオを反映するために、実際のVRゲームトラフィックを含む複数のサービスに対応する徹底的な実験を行う。
また, 政策再利用と蒸留支援DRLと非TL支援DRLを3つの異なるベースラインとして提案する。
提案したハイブリッドアプローチは, 平均初期報酬値と収束シナリオの割合を7.7%, 20.7%改善し, 64.6%の報酬分散を減少させ, 高速収束を維持し, ベースラインと比較して一般化性を高めた。
関連論文リスト
- How Does Forecasting Affect the Convergence of DRL Techniques in O-RAN
Slicing? [20.344810727033327]
本稿では,DRLの収束性を高めるため,新しい予測支援型DRL手法とそのO-RAN実運用ワークフローを提案する。
提案手法では, 平均初期報酬値, 収束率, 収束シナリオ数において最大22.8%, 86.3%, 300%の改善が見られた。
論文 参考訳(メタデータ) (2023-09-01T14:30:04Z) - Sparsity-Aware Intelligent Massive Random Access Control in Open RAN: A
Reinforcement Learning Based Approach [61.74489383629319]
新たなOpen Radio Access Network(O-RAN)におけるデバイスの大量ランダムアクセスは、アクセス制御と管理に大きな課題をもたらします。
閉ループアクセス制御の強化学習(RL)支援方式を提案する。
深部RL支援SAUDは、連続的かつ高次元の状態と行動空間を持つ複雑な環境を解決するために提案されている。
論文 参考訳(メタデータ) (2023-03-05T12:25:49Z) - Network-Aided Intelligent Traffic Steering in 6G O-RAN: A Multi-Layer
Optimization Framework [47.57576667752444]
オープンRAN(O-RAN)におけるインテリジェントステアリングアプリケーションを実現するために,フロースプリット分布,渋滞制御,スケジューリング(JFCS)を共同で最適化する。
i) 適切な無線ユニットへのトラフィックを効率よく、適応的に誘導する新しいJFCSフレームワークを提案し、i) 強化学習、内近似、二項探索に基づく低複雑さアルゴリズムを開発し、異なる時間スケールでJFCS問題を効果的に解決し、iv) 厳密な理論的性能結果を分析し、遅延とユーティリティ最適化のトレードオフを改善するためのスケーリング係数が存在することを示す。
論文 参考訳(メタデータ) (2023-02-06T11:37:06Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Toward Safe and Accelerated Deep Reinforcement Learning for
Next-Generation Wireless Networks [21.618559590818236]
本稿では,DRL ベースの RRM ソリューションを開発する際に直面する2つの課題について論じる。
特に,DRLアルゴリズムが示す遅延収束と性能不安定性を緩和する,安全かつ高速化されたDRLベースのRRMソリューションの必要性について論じる。
論文 参考訳(メタデータ) (2022-09-16T04:50:49Z) - FORLORN: A Framework for Comparing Offline Methods and Reinforcement
Learning for Optimization of RAN Parameters [0.0]
本稿では,ネットワーク環境におけるRLエージェントの性能をns-3でシミュレートする新しいフレームワークを提案する。
このフレームワークでは、ドメイン固有の知識を持たないRLエージェントが、静的シナリオにおけるオフライン最適化に適合するように、Radio Access Network(RAN)パラメータを効率的に調整する方法を学習できることを実証する。
論文 参考訳(メタデータ) (2022-09-08T12:58:09Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。