論文の概要: Task Specific Sharpness Aware O-RAN Resource Management using Multi Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.15002v1
- Date: Wed, 19 Nov 2025 00:55:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.575696
- Title: Task Specific Sharpness Aware O-RAN Resource Management using Multi Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習を用いたO-RAN資源管理を考慮したタスク固有シャープネス
- Authors: Fatemeh Lotfi, Hossein Rajoli, Fatemeh Afghah,
- Abstract要約: 次世代ネットワークは、動的リソース管理を可能にするためにOpen Radio Access Network (O-RAN)アーキテクチャを利用する。
深層強化学習モデルは、動的環境における堅牢性と一般化性に苦しむことが多い。
本稿では,分散マルチエージェントRL(MARL)フレームワークにおいて,シャープネス・アウェア最小化(SAM)を用いたソフトアクタ批判(SAC)アルゴリズムの新たな資源管理手法を提案する。
- 参考スコア(独自算出の注目度): 8.26664397566735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Next-generation networks utilize the Open Radio Access Network (O-RAN) architecture to enable dynamic resource management, facilitated by the RAN Intelligent Controller (RIC). While deep reinforcement learning (DRL) models show promise in optimizing network resources, they often struggle with robustness and generalizability in dynamic environments. This paper introduces a novel resource management approach that enhances the Soft Actor Critic (SAC) algorithm with Sharpness-Aware Minimization (SAM) in a distributed Multi-Agent RL (MARL) framework. Our method introduces an adaptive and selective SAM mechanism, where regularization is explicitly driven by temporal-difference (TD)-error variance, ensuring that only agents facing high environmental complexity are regularized. This targeted strategy reduces unnecessary overhead, improves training stability, and enhances generalization without sacrificing learning efficiency. We further incorporate a dynamic $ρ$ scheduling scheme to refine the exploration-exploitation trade-off across agents. Experimental results show our method significantly outperforms conventional DRL approaches, yielding up to a $22\%$ improvement in resource allocation efficiency and ensuring superior QoS satisfaction across diverse O-RAN slices.
- Abstract(参考訳): 次世代ネットワークはOpen Radio Access Network (O-RAN) アーキテクチャを使用して、RAN Intelligent Controller (RIC) によって促進される動的リソース管理を実現する。
深層強化学習(DRL)モデルは、ネットワークリソースの最適化を約束する一方で、動的環境における堅牢性と一般化性に苦慮することが多い。
本稿では,分散マルチエージェントRL(MARL)フレームワークにおいて,シャープネス・アウェア最小化(SAM)を用いたソフトアクタ批判(SAC)アルゴリズムの新たな資源管理手法を提案する。
本手法では, 適応的かつ選択的なSAM機構を導入し, 時間差(TD)-エラー分散によって規則化を明示的に駆動し, 環境の複雑さに直面するエージェントのみが規則化されることを保証する。
このターゲット戦略は、不要なオーバーヘッドを低減し、トレーニングの安定性を改善し、学習効率を犠牲にすることなく一般化を強化する。
さらに、エージェント間の探索・探索トレードオフを改善するために、動的な$ρ$スケジューリングスキームを組み込む。
実験の結果,本手法は従来のDRL手法よりも優れており,資源配分効率が最大で22 %向上し,様々なO-RANスライスに対して優れたQoS満足度が確保できることがわかった。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Prompt-Tuned LLM-Augmented DRL for Dynamic O-RAN Network Slicing [5.62872273155603]
大規模言語モデル(LLM)は、無秩序なネットワークフィードバックを意味のある潜在表現に構造化する。
O-RANスライシングでは、SNR、パワーレベル、スループットといった概念が意味的に関連している。
学習可能なプロンプトをLLM拡張DRLフレームワークに統合した文脈化に基づく適応手法を提案する。
論文 参考訳(メタデータ) (2025-05-31T14:12:56Z) - Network Resource Optimization for ML-Based UAV Condition Monitoring with Vibration Analysis [54.550658461477106]
条件監視(CM)は機械学習(ML)モデルを使用して異常および異常な条件を識別する。
本研究では,MLベースのUAV CMフレームワークにおけるネットワークリソースの最適化について検討する。
次元削減技術を活用することで、ネットワークリソース消費の99.9%が削減される。
論文 参考訳(メタデータ) (2025-02-21T14:36:12Z) - Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。
本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:17:33Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Meta Reinforcement Learning Approach for Adaptive Resource Optimization in O-RAN [6.326120268549892]
Open Radio Access Network (O-RAN) は、前例のない効率性と適応性を持つ現代のネットワークの変動要求に対処する。
本稿では,モデルに依存しないメタラーニング(MAML)にインスパイアされたメタ深層強化学習(Meta-DRL)戦略を提案する。
論文 参考訳(メタデータ) (2024-09-30T23:04:30Z) - Generative AI for O-RAN Slicing: A Semi-Supervised Approach with VAE and Contrastive Learning [5.1435595246496595]
本稿では,O-RANにおける資源割り当てとネットワークスライシングを最適化する,新しい生成型AI(GAI)による半教師付き学習アーキテクチャを提案する。
本稿では,eMBB と URLLC サービスの質を高めるために,ユーザ機器のスループット(UE)を最大化し,物理リソースブロック(PRB)を割り当てる。
論文 参考訳(メタデータ) (2024-01-16T22:23:27Z) - Attention-based Open RAN Slice Management using Deep Reinforcement
Learning [6.177038245239758]
本稿では,O-RAN分散化モジュールと分散エージェント協調を利用した,革新的アテンションベースディープRL(ADRL)技術を提案する。
シミュレーションの結果,他のDRLベースライン法と比較してネットワーク性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-06-15T20:37:19Z) - Evolutionary Deep Reinforcement Learning for Dynamic Slice Management in
O-RAN [11.464582983164991]
新しいオープン無線アクセスネットワーク(O-RAN)は、フレキシブルな設計、分離された仮想およびプログラマブルなコンポーネント、インテリジェントクローズループ制御などの特徴を区別する。
O-RANスライシングは、状況の変化に直面したネットワーク品質保証(QoS)のための重要な戦略として検討されている。
本稿では,ネットワークスライスを知的に管理できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-30T17:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。