論文の概要: Multi-Agent Q-Learning for Real-Time Load Balancing User Association and Handover in Mobile Networks
- arxiv url: http://arxiv.org/abs/2412.19835v1
- Date: Sun, 22 Dec 2024 11:22:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 09:06:40.628708
- Title: Multi-Agent Q-Learning for Real-Time Load Balancing User Association and Handover in Mobile Networks
- Title(参考訳): モバイルネットワークにおけるリアルタイムロードバランシングユーザアソシエーションとハンドオーバのためのマルチエージェントQラーニング
- Authors: Alireza Alizadeh, Byungju Lim, Mai Vu,
- Abstract要約: 本稿では,高密度セルネットワークにおけるリアルタイムロードバランシングユーザアソシエーションとハンドオーバを実現するためのマルチエージェントオンラインQラーニング(QL)アルゴリズムを提案する。
学習ステップ毎にロードバランシングを満たすために,集中型と分散型の2つのマルチエージェントアクション選択ポリシーを提案する。
いずれのポリシーも、様々なUE速度プロファイルにおけるネットワークダイナミクスによく適応していることを示す。
- 参考スコア(独自算出の注目度): 16.107256745452933
- License:
- Abstract: As next generation cellular networks become denser, associating users with the optimal base stations at each time while ensuring no base station is overloaded becomes critical for achieving stable and high network performance. We propose multi-agent online Q-learning (QL) algorithms for performing real-time load balancing user association and handover in dense cellular networks. The load balancing constraints at all base stations couple the actions of user agents, and we propose two multi-agent action selection policies, one centralized and one distributed, to satisfy load balancing at every learning step. In the centralized policy, the actions of UEs are determined by a central load balancer (CLB) running an algorithm based on swapping the worst connection to maximize the total learning reward. In the distributed policy, each UE takes an action based on its local information by participating in a distributed matching game with the BSs to maximize the local reward. We then integrate these action selection policies into an online QL algorithm that adapts in real-time to network dynamics including channel variations and user mobility, using a reward function that considers a handover cost to reduce handover frequency. The proposed multi-agent QL algorithm features low-complexity and fast convergence, outperforming 3GPP max-SINR association. Both policies adapt well to network dynamics at various UE speed profiles from walking, running, to biking and suburban driving, illustrating their robustness and real-time adaptability.
- Abstract(参考訳): 次世代のセルネットワークがより密化するにつれて、各時間に最適な基地局と接続し、基地局が過負荷にならないようにし、安定かつ高いネットワーク性能を達成するために重要となる。
本稿では,高密度セルネットワークにおけるリアルタイムロードバランシングユーザアソシエーションとハンドオーバを実現するためのマルチエージェントオンラインQラーニング(QL)アルゴリズムを提案する。
各基地局における負荷分散制約は,ユーザエージェントの動作と,学習ステップ毎に負荷分散を満たすために,集中型と分散型の2つのマルチエージェントアクション選択ポリシーを提案する。
集中的なポリシーでは、UEの動作は、最悪の接続を交換して学習報酬を最大化するアルゴリズムを実行する中央負荷バランサ(CLB)によって決定される。
分散ポリシでは、各UEは、BSと分散マッチングゲームに参加して、そのローカル情報に基づいてアクションを取り、ローカル報酬を最大化する。
次に、これらのアクション選択ポリシーをオンラインQLアルゴリズムに統合し、チャネルのバリエーションやユーザモビリティを含むネットワークダイナミクスにリアルタイムで適応し、ハンドオーバコストを考慮した報酬関数を使用して、ハンドオーバ頻度を低減します。
提案したマルチエージェントQLアルゴリズムは、低複雑さと高速収束を特徴とし、3GPPmax-SINRアソシエーションより優れている。
どちらのポリシーも、歩行、走行、自転車、郊外での運転など、UEの様々な速度プロファイルにおけるネットワークのダイナミクスによく適応し、その堅牢性とリアルタイムな適応性を示す。
関連論文リスト
- Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。
本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:17:33Z) - Mobility-Aware Joint User Scheduling and Resource Allocation for Low
Latency Federated Learning [14.343345846105255]
フェデレート学習システムにおけるユーザモビリティの実践モデルを提案する。
制約のある通信リソースによるトレーニング遅延を最小限に抑えるために,ユーザスケジューリングとリソース割り当て手法を開発した。
具体的には、まず、ユーザ選択、ユーザへのBS割り当て、帯域幅割り当てを共同で検討するユーザモビリティに関する最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-07-18T13:48:05Z) - Distributed-Training-and-Execution Multi-Agent Reinforcement Learning
for Power Control in HetNet [48.96004919910818]
We propose a multi-agent Deep reinforcement learning (MADRL) based power control scheme for the HetNet。
エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQラーニング(PQL)アルゴリズムを開発した。
このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。
論文 参考訳(メタデータ) (2022-12-15T17:01:56Z) - Decentralized Federated Reinforcement Learning for User-Centric Dynamic
TFDD Control [37.54493447920386]
非対称かつ不均一なトラフィック要求を満たすための学習に基づく動的時間周波数分割二重化(D-TFDD)方式を提案する。
分散化された部分観測可能なマルコフ決定過程(Dec-POMDP)として問題を定式化する。
本稿では,グローバルリソースを分散的に最適化するために,Wolpertinger Deep Deterministic Policy gradient (FWDDPG)アルゴリズムという,連合強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-04T07:39:21Z) - Dynamic Multichannel Access via Multi-agent Reinforcement Learning:
Throughput and Fairness Guarantees [9.615742794292943]
マルチエージェント強化学習(RL)に基づく分散マルチチャネルアクセスプロトコルを提案する。
チャネルアクセス確率を各時間スロットで調整する従来の手法とは異なり、提案したRLアルゴリズムは、連続する時間スロットに対する一連のチャネルアクセスポリシーを決定論的に選択する。
我々は,現実的な交通環境において広範なシミュレーションを行い,提案したオンライン学習がスループットと公平性の両方を改善することを示す。
論文 参考訳(メタデータ) (2021-05-10T02:32:57Z) - A Machine Learning Approach for Task and Resource Allocation in Mobile
Edge Computing Based Networks [108.57859531628264]
無線ネットワークにおいて,共同作業,スペクトル,送信電力配分問題について検討する。
提案アルゴリズムは、標準Q-ラーニングアルゴリズムと比較して、収束に必要なイテレーション数と全ユーザの最大遅延を最大18%、11.1%削減することができる。
論文 参考訳(メタデータ) (2020-07-20T13:46:42Z) - Multi-Agent Routing Value Iteration Network [88.38796921838203]
疎結合グラフの学習値に基づいてマルチエージェントルーティングを行うことができるグラフニューラルネットワークに基づくモデルを提案する。
最大25ノードのグラフ上で2つのエージェントでトレーニングしたモデルでは,より多くのエージェントやノードを持つ状況に容易に一般化できることが示されている。
論文 参考訳(メタデータ) (2020-07-09T22:16:45Z) - Federated Learning for Task and Resource Allocation in Wireless High
Altitude Balloon Networks [160.96150373385768]
移動エッジコンピューティング(MEC)対応バルーンネットワークにおいて,タスク計算と伝送におけるエネルギーと時間消費の最小化の問題について検討した。
サポートベクトルマシン(SVM)に基づくフェデレーション学習(FL)アルゴリズムを提案する。
提案したSVMベースのFL法では,各HABが協調してSVMモデルを構築し,すべてのユーザアソシエーションを決定できる。
論文 参考訳(メタデータ) (2020-03-19T14:18:25Z) - Multiple Access in Dynamic Cell-Free Networks: Outage Performance and
Deep Reinforcement Learning-Based Design [24.632250413917816]
将来のセルフリー(またはセルレス)無線ネットワークでは、地理的領域の多数のデバイスが同時に多数の分散アクセスポイント(AP)によって提供される。
我々は,多数のデバイスやAPが存在する場合に,ユーザの信号の共同処理の複雑さを低減するために,新しい動的セルフリーネットワークアーキテクチャを提案する。
システム設定では, DDPG-DDQN方式は, 網羅的な検索ベース設計により, 達成可能なレートの約78%を達成できることがわかった。
論文 参考訳(メタデータ) (2020-01-29T03:00:22Z) - Reinforcement Learning Based Vehicle-cell Association Algorithm for
Highly Mobile Millimeter Wave Communication [53.47785498477648]
本稿では,ミリ波通信網における車とセルの関連性について検討する。
まず、ユーザ状態(VU)問題を離散的な非車両関連最適化問題として定式化する。
提案手法は,複数のベースライン設計と比較して,ユーザの複雑性とVUEの20%削減の合計で最大15%のゲインが得られる。
論文 参考訳(メタデータ) (2020-01-22T08:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。