論文の概要: Handoff Design in User-Centric Cell-Free Massive MIMO Networks Using DRL
- arxiv url: http://arxiv.org/abs/2507.20966v1
- Date: Mon, 28 Jul 2025 16:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.202853
- Title: Handoff Design in User-Centric Cell-Free Massive MIMO Networks Using DRL
- Title(参考訳): DRLを用いたユーザ中心セルフリー大量MIMOネットワークのハンドオフ設計
- Authors: Hussein A. Ammar, Raviraj Adve, Shahram Shahbazpanahi, Gary Boudreau, Israfil Bahceci,
- Abstract要約: 本稿では,モバイルユーザに対するコネクションの予測と管理を行うための,深層強化学習に基づくソリューションを提案する。
提案手法では,活動空間を連続的に表現したソフトアクター・クライブアルゴリズムを用いて,HOポリシとして機能するディープニューラルネットワークをトレーニングする。
本稿では,HOの達成率とHOに関連するオーバーヘッドのバランスをとるために,HOペナルティを統合した報酬関数を提案する。
- 参考スコア(独自算出の注目度): 26.772811966031746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the user-centric cell-free massive MIMO (UC-mMIMO) network scheme, user mobility necessitates updating the set of serving access points to maintain the user-centric clustering. Such updates are typically performed through handoff (HO) operations; however, frequent HOs lead to overheads associated with the allocation and release of resources. This paper presents a deep reinforcement learning (DRL)-based solution to predict and manage these connections for mobile users. Our solution employs the Soft Actor-Critic algorithm, with continuous action space representation, to train a deep neural network to serve as the HO policy. We present a novel proposition for a reward function that integrates a HO penalty in order to balance the attainable rate and the associated overhead related to HOs. We develop two variants of our system; the first one uses mobility direction-assisted (DA) observations that are based on the user movement pattern, while the second one uses history-assisted (HA) observations that are based on the history of the large-scale fading (LSF). Simulation results show that our DRL-based continuous action space approach is more scalable than discrete space counterpart, and that our derived HO policy automatically learns to gather HOs in specific time slots to minimize the overhead of initiating HOs. Our solution can also operate in real time with a response time less than 0.4 ms.
- Abstract(参考訳): ユーザ中心のセルフリー大規模MIMO(UC-mMIMO)ネットワークスキームでは,ユーザ中心のクラスタリングを維持するために,サービスアクセスポイントのセットを更新する必要がある。
このような更新は通常、ハンドオフ(HO)操作を通じて実行されるが、頻繁なHOはリソースの割り当てとリリースに関連するオーバーヘッドにつながる。
本稿では,モバイルユーザに対して,これらの接続を予測し,管理するためのDRLベースのソリューションを提案する。
提案手法では,活動空間を連続的に表現したソフトアクター・クライブアルゴリズムを用いて,HOポリシとして機能するディープニューラルネットワークをトレーニングする。
本稿では,HOの達成率とHOに関連するオーバーヘッドのバランスをとるために,HOペナルティを統合した報酬関数を提案する。
本システムでは,ユーザの動きパターンに基づく移動方向支援(DA)観測と,大規模流行(LSF)の歴史に基づく履歴支援(HA)観測の2種類を開発した。
シミュレーションの結果,DRLに基づく連続行動空間アプローチは離散空間よりも拡張性が高く,導出したHOポリシーは,HOの起動オーバーヘッドを最小限に抑えるために,特定の時間スロットにHOを集めることを自動的に学習することがわかった。
私たちのソリューションは、0.4ms未満の応答時間でリアルタイムに動作することも可能です。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Mobility-Aware Joint User Scheduling and Resource Allocation for Low
Latency Federated Learning [14.343345846105255]
フェデレート学習システムにおけるユーザモビリティの実践モデルを提案する。
制約のある通信リソースによるトレーニング遅延を最小限に抑えるために,ユーザスケジューリングとリソース割り当て手法を開発した。
具体的には、まず、ユーザ選択、ユーザへのBS割り当て、帯域幅割り当てを共同で検討するユーザモビリティに関する最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-07-18T13:48:05Z) - Sparsity-Aware Intelligent Massive Random Access Control in Open RAN: A
Reinforcement Learning Based Approach [61.74489383629319]
新たなOpen Radio Access Network(O-RAN)におけるデバイスの大量ランダムアクセスは、アクセス制御と管理に大きな課題をもたらします。
閉ループアクセス制御の強化学習(RL)支援方式を提案する。
深部RL支援SAUDは、連続的かつ高次元の状態と行動空間を持つ複雑な環境を解決するために提案されている。
論文 参考訳(メタデータ) (2023-03-05T12:25:49Z) - Decentralized Federated Reinforcement Learning for User-Centric Dynamic
TFDD Control [37.54493447920386]
非対称かつ不均一なトラフィック要求を満たすための学習に基づく動的時間周波数分割二重化(D-TFDD)方式を提案する。
分散化された部分観測可能なマルコフ決定過程(Dec-POMDP)として問題を定式化する。
本稿では,グローバルリソースを分散的に最適化するために,Wolpertinger Deep Deterministic Policy gradient (FWDDPG)アルゴリズムという,連合強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-04T07:39:21Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Smart Scheduling based on Deep Reinforcement Learning for Cellular
Networks [18.04856086228028]
深部強化学習(DRL)に基づくスマートスケジューリング手法を提案する。
実装フレンドリーな設計、すなわちエージェントのためのスケーラブルなニューラルネットワーク設計と仮想環境トレーニングフレームワークを提供する。
本研究では, DRLベースのスマートスケジューリングが従来のスケジューリング方式を上回り, 実用システムにも適用できることを示した。
論文 参考訳(メタデータ) (2021-03-22T02:09:16Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Deep-Reinforcement-Learning-Based Scheduling with Contiguous Resource
Allocation for Next-Generation Cellular Systems [4.227387975627387]
深部強化学習(DRL)に基づく連続周波数領域リソース割り当て(FDRA)を用いた新しいスケジューリングアルゴリズムを提案する。
DRLに基づくスケジューリングアルゴリズムは、オンライン計算の複雑さを低くしながら、他の代表的ベースライン方式よりも優れている。
論文 参考訳(メタデータ) (2020-10-11T05:41:40Z) - MDLdroid: a ChainSGD-reduce Approach to Mobile Deep Learning for
Personal Mobile Sensing [14.574274428615666]
デバイス上でのディープラーニングの実行には、データのプライバシ保護や、モデルの堅牢性とアップデートの両方に対する低レイテンシ応答など、いくつかのメリットがある。
パーソナルモバイルセンシングアプリケーションは、主にユーザ固有であり、環境の影響を受けやすい。
我々は,デバイス上での協調学習を実現するために,新たな分散モバイルディープラーニングフレームワークであるMDLdroidを提案する。
論文 参考訳(メタデータ) (2020-02-07T16:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。