論文の概要: Generalization in Reinforcement Learning for Radio Access Networks
- arxiv url: http://arxiv.org/abs/2507.06602v1
- Date: Wed, 09 Jul 2025 07:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.499899
- Title: Generalization in Reinforcement Learning for Radio Access Networks
- Title(参考訳): 無線アクセスネットワークにおける強化学習の一般化
- Authors: Burak Demirel, Yu Wang, Cristian Tatino, Pablo Soldati,
- Abstract要約: RAN制御のための一般化中心RLフレームワークを提案する。
セルトポロジとノード属性をアテンションベースのグラフ表現でエンコードする。
クラウド互換アーキテクチャでのトレーニングを集中化しながら、複数のアクターにデータ生成を分散します。
- 参考スコア(独自算出の注目度): 2.9822261313236513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern RAN operate in highly dynamic and heterogeneous environments, where hand-tuned, rule-based RRM algorithms often underperform. While RL can surpass such heuristics in constrained settings, the diversity of deployments and unpredictable radio conditions introduce major generalization challenges. Data-driven policies frequently overfit to training conditions, degrading performance in unseen scenarios. To address this, we propose a generalization-centered RL framework for RAN control that: (i) encodes cell topology and node attributes via attention-based graph representations; (ii) applies domain randomization to broaden the training distribution; and (iii) distributes data generation across multiple actors while centralizing training in a cloud-compatible architecture aligned with O-RAN principles. Although generalization increases computational and data-management complexity, our distributed design mitigates this by scaling data collection and training across diverse network conditions. Applied to downlink link adaptation in five 5G benchmarks, our policy improves average throughput and spectral efficiency by ~10% over an OLLA baseline (10% BLER target) in full-buffer MIMO/mMIMO and by >20% under high mobility. It matches specialized RL in full-buffer traffic and achieves up to 4- and 2-fold gains in eMBB and mixed-traffic benchmarks, respectively. In nine-cell deployments, GAT models offer 30% higher throughput over MLP baselines. These results, combined with our scalable architecture, offer a path toward AI-native 6G RAN using a single, generalizable RL agent.
- Abstract(参考訳): 現代のRANは、手動のルールベースのRTMアルゴリズムが性能が劣る、非常にダイナミックで異種な環境で動作している。
制約された環境では、RLはそのようなヒューリスティックを超えることができるが、展開の多様性と予測不可能な無線条件は、大きな一般化の課題をもたらす。
データ駆動型ポリシは、しばしばトレーニング条件に適合し、目に見えないシナリオのパフォーマンスを低下させる。
これを解決するために、RAN制御のための一般化中心のRLフレームワークを提案する。
i)アテンションベースのグラフ表現によるセルトポロジとノード属性を符号化する。
二 訓練分布を広げるために領域ランダム化を適用すること、及び
(iii)O-RAN原則に準拠したクラウド互換アーキテクチャでトレーニングを集中化しながら、複数のアクターにデータ生成を分散する。
一般化は計算とデータ管理の複雑さを増大させるが、分散設計では、様々なネットワーク条件でデータ収集とトレーニングをスケールすることでこれを軽減している。
5G ベンチマークにおけるダウンリンクリンク適応の適用により,フルバッファ MIMO/mMIMO における OLLA ベースライン (10% BLER ターゲット) よりも平均スループットとスペクトル効率を約10%向上し,高モビリティ下では 20% 向上する。
フルバッファトラフィックで特殊RLと一致し、それぞれeMBBと混合トラヒックベンチマークで最大4倍と2倍のゲインを達成する。
9セル配置では、GATモデルはMLPベースラインよりも30%高いスループットを提供する。
これらの結果は、スケーラブルなアーキテクチャと組み合わせて、単一の一般化可能なRLエージェントを使用して、AIネイティブな6G RANへの道を提供する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Safe and Accelerated Deep Reinforcement Learning-based O-RAN Slicing: A
Hybrid Transfer Learning Approach [20.344810727033327]
我々は,DRLをベースとしたO-RANスライシングにおいて,安全かつ迅速な収束を実現するためのハイブリッドTL支援手法を提案し,設計する。
提案されたハイブリッドアプローチは、少なくとも7.7%と20.7%は、平均的な初期報酬値と収束シナリオの割合を改善している。
論文 参考訳(メタデータ) (2023-09-13T18:58:34Z) - How Does Forecasting Affect the Convergence of DRL Techniques in O-RAN
Slicing? [20.344810727033327]
本稿では,DRLの収束性を高めるため,新しい予測支援型DRL手法とそのO-RAN実運用ワークフローを提案する。
提案手法では, 平均初期報酬値, 収束率, 収束シナリオ数において最大22.8%, 86.3%, 300%の改善が見られた。
論文 参考訳(メタデータ) (2023-09-01T14:30:04Z) - Inter-Cell Network Slicing With Transfer Learning Empowered Multi-Agent
Deep Reinforcement Learning [6.523367518762879]
ネットワークスライシングにより、オペレータは共通の物理インフラ上で多様なアプリケーションを効率的にサポートできる。
ネットワーク展開の恒常的に増大する密度化は、複雑で非自明な細胞間干渉を引き起こす。
複数の深層強化学習(DRL)エージェントを用いたDIRPアルゴリズムを開発し,各セルの資源分配を協調的に最適化する。
論文 参考訳(メタデータ) (2023-06-20T14:14:59Z) - Programmable and Customized Intelligence for Traffic Steering in 5G
Networks Using Open RAN Architectures [16.48682480842328]
5G以降のモバイルネットワークは、前例のない規模で異質なユースケースをサポートする。
無線アクセスネットワーク(RAN)のこのようなきめ細かい制御は、現在のセルアーキテクチャでは不可能である。
クローズドループ制御を可能とし,ユーザレベルでRANをデータ駆動でインテリジェントに最適化するオープンアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-09-28T15:31:06Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Reinforcement Learning for Datacenter Congestion Control [50.225885814524304]
渋滞制御アルゴリズムの成功は、レイテンシとネットワーク全体のスループットを劇的に改善する。
今日まで、このような学習ベースのアルゴリズムはこの領域で実用的な可能性を示さなかった。
実世界のデータセンターネットワークの様々な構成に一般化することを目的としたRLに基づくアルゴリズムを考案する。
本稿では,この手法が他のRL手法よりも優れており,トレーニング中に見られなかったシナリオに一般化可能であることを示す。
論文 参考訳(メタデータ) (2021-02-18T13:49:28Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。