論文の概要: Anomaly Detection for Scalable Task Grouping in Reinforcement
Learning-based RAN Optimization
- arxiv url: http://arxiv.org/abs/2312.03277v1
- Date: Wed, 6 Dec 2023 04:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 16:05:06.067784
- Title: Anomaly Detection for Scalable Task Grouping in Reinforcement
Learning-based RAN Optimization
- Title(参考訳): 強化学習に基づくRAN最適化におけるスケーラブルタスク群の自動検出
- Authors: Jimmy Li, Igor Kozlov, Di Wu, Xue Liu, Gregory Dudek
- Abstract要約: 多数の細胞にまたがってうまく機能する学習モデルの訓練と維持は、関連する問題となっている。
本稿では,多数のセルサイトにわたるRAN最適化を実現するための拡張学習政策バンクを構築するためのスケーラブルなフレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.055378785343335
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The use of learning-based methods for optimizing cellular radio access
networks (RAN) has received increasing attention in recent years. This
coincides with a rapid increase in the number of cell sites worldwide, driven
largely by dramatic growth in cellular network traffic. Training and
maintaining learned models that work well across a large number of cell sites
has thus become a pertinent problem. This paper proposes a scalable framework
for constructing a reinforcement learning policy bank that can perform RAN
optimization across a large number of cell sites with varying traffic patterns.
Central to our framework is a novel application of anomaly detection techniques
to assess the compatibility between sites (tasks) and the policy bank. This
allows our framework to intelligently identify when a policy can be reused for
a task, and when a new policy needs to be trained and added to the policy bank.
Our results show that our approach to compatibility assessment leads to an
efficient use of computational resources, by allowing us to construct a
performant policy bank without exhaustively training on all tasks, which makes
it applicable under real-world constraints.
- Abstract(参考訳): 近年,細胞無線アクセスネットワーク(RAN)を最適化するための学習に基づく手法が注目されている。
これは、セルネットワークトラフィックの劇的な増加によって、世界中の細胞サイトが急速に増加したことと一致している。
多数のセルサイトにわたってうまく機能する学習モデルのトレーニングとメンテナンスは、関連する問題となっている。
本稿では,トラフィックパターンの異なる多数のセルサイトに対して,実行時の最適化が可能な強化学習ポリシバンクを構築するためのスケーラブルなフレームワークを提案する。
我々のフレームワークの中心は、サイト(タスク)と政策銀行の整合性を評価するための異常検出技術の新しい応用である。
これにより、私たちのフレームワークは、タスクのためにポリシーをいつ再利用できるか、新しいポリシーをトレーニングし、ポリシーバンクに追加する必要があるのかをインテリジェントに識別できます。
提案手法は, 実世界の制約下で, 全タスクを徹底的に訓練することなく, 実行政策銀行を構築することで, 計算資源の効率的な活用につながることを示す。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Collaborative Policy Learning for Dynamic Scheduling Tasks in
Cloud-Edge-Terminal IoT Networks Using Federated Reinforcement Learning [8.359770027722275]
動的スケジューリングタスクのための新しい協調型ポリシー学習フレームワークを提案する。
本フレームワークは,各ラウンドにおける協調学習のタスクを適応的に選択し,タスク間の公平さを考慮に入れた。
論文 参考訳(メタデータ) (2023-07-02T11:09:00Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Offline Contextual Bandits for Wireless Network Optimization [107.24086150482843]
本稿では,ユーザ要求の変化に応じて,ネットワーク内の各セルの構成パラメータを自動的に調整するポリシの学習方法について検討する。
私たちのソリューションは、オフライン学習のための既存の方法を組み合わせて、この文脈で生じる重要な課題を克服する原則的な方法でそれらを適応します。
論文 参考訳(メタデータ) (2021-11-11T11:31:20Z) - Towards Exploiting Geometry and Time for FastOff-Distribution Adaptation
in Multi-Task RobotLearning [17.903462188570067]
トレーニング済みタスクのベースセットに対するポリシーをトレーニングし、次に、新しいオフディストリビューションタスクに適応する実験を行います。
低複雑さのターゲットポリシークラス、ブラックボックス前の基本ポリシー、および単純な最適化アルゴリズムを組み合わせることで、ベースタスクの配布外の新しいタスクを取得できることがわかりました。
論文 参考訳(メタデータ) (2021-06-24T02:13:50Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。