論文の概要: A Bayesian Framework of Deep Reinforcement Learning for Joint O-RAN/MEC
Orchestration
- arxiv url: http://arxiv.org/abs/2312.16142v1
- Date: Tue, 26 Dec 2023 18:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 14:48:46.321348
- Title: A Bayesian Framework of Deep Reinforcement Learning for Joint O-RAN/MEC
Orchestration
- Title(参考訳): 統合O-RAN/MECオーケストレーションのための深部強化学習のベイズ的枠組み
- Authors: Fahri Wisnu Murti, Samad Ali, Matti Latva-aho
- Abstract要約: マルチアクセスエッジコンピューティング(MEC)は、コモディティプラットフォーム上でOpen Radio Access Network(O-RAN)と一緒に実装することで、低コストなデプロイメントを実現する。
本稿では,ベイジアンディープ強化学習(RL)を用いたO-RAN/MEC協調オーケストレーションを提案する。
- 参考スコア(独自算出の注目度): 12.914011030970814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-access Edge Computing (MEC) can be implemented together with Open Radio
Access Network (O-RAN) over commodity platforms to offer low-cost deployment
and bring the services closer to end-users. In this paper, a joint O-RAN/MEC
orchestration using a Bayesian deep reinforcement learning (RL)-based framework
is proposed that jointly controls the O-RAN functional splits, the allocated
resources and hosting locations of the O-RAN/MEC services across
geo-distributed platforms, and the routing for each O-RAN/MEC data flow. The
goal is to minimize the long-term overall network operation cost and maximize
the MEC performance criterion while adapting possibly time-varying O-RAN/MEC
demands and resource availability. This orchestration problem is formulated as
Markov decision process (MDP). However, the system consists of multiple BSs
that share the same resources and serve heterogeneous demands, where their
parameters have non-trivial relations. Consequently, finding the exact model of
the underlying system is impractical, and the formulated MDP renders in a large
state space with multi-dimensional discrete action. To address such modeling
and dimensionality issues, a novel model-free RL agent is proposed for our
solution framework. The agent is built from Double Deep Q-network (DDQN) that
tackles the large state space and is then incorporated with action branching,
an action decomposition method that effectively addresses the multi-dimensional
discrete action with linear increase complexity. Further, an efficient
exploration-exploitation strategy under a Bayesian framework using Thomson
sampling is proposed to improve the learning performance and expedite its
convergence. Trace-driven simulations are performed using an O-RAN-compliant
model. The results show that our approach is data-efficient (i.e., converges
faster) and increases the returned reward by 32\% than its non-Bayesian
version.
- Abstract(参考訳): マルチアクセスエッジコンピューティング(MEC)は、コモディティプラットフォーム上でOpen Radio Access Network(O-RAN)とともに実装され、低コストなデプロイメントを提供し、サービスをエンドユーザに近づける。
本稿では, ベイジアンディープ・強化学習(RL)を用いた共同O-RAN/MECオーケストレーション手法を提案し, 各O-RAN/MECデータフローにおけるO-RAN/MECサービスの機能分割, リソースの配分, ホスティング場所, および各O-RAN/MECデータフローのルーティングについて検討した。
目標は、O-RAN/MEC要求とリソース可用性に適応しつつ、ネットワーク全体の長期運用コストを最小化し、MECの性能基準を最大化することである。
このオーケストレーション問題はマルコフ決定過程(MDP)として定式化されている。
しかし、同じリソースを共有し、パラメータが非自明な関係を持つ異種要求に対処する複数のBSで構成されている。
したがって、基礎となるシステムの正確なモデルを見つけることは現実的ではなく、定式化されたMDPは多次元の離散的な作用を持つ大きな状態空間に描画する。
このようなモデリングや次元問題に対処するため,我々のソリューション・フレームワークに新しいモデルフリーなRLエージェントを提案する。
このエージェントは、大きな状態空間に取り組むdouble deep q-network (ddqn) から構築され、線形に増大する複雑性を持つ多次元離散アクションを効果的に扱うアクション・ブランチ法(action branching)に組み込まれている。
さらに, トムソンサンプリングを用いたベイズフレームワークによる効率的な探索探索戦略を提案し, 学習性能の向上と収束の促進を図る。
O-RAN準拠モデルを用いてトレース駆動シミュレーションを行う。
結果は,本手法がデータ効率(すなわち,より高速な収束)であり,返却報酬が非ベイズ版よりも32\%増加することを示す。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - A Multi-objective Complex Network Pruning Framework Based on
Divide-and-conquer and Global Performance Impairment Ranking [40.59001171151929]
本稿では,多目的複合ネットワークプルーニングフレームワークを提案する。
提案アルゴリズムは,最先端プルーニング手法と同等の性能を実現する。
論文 参考訳(メタデータ) (2023-03-28T12:05:15Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Distributed Resource Scheduling for Large-Scale MEC Systems: A
Multi-Agent Ensemble Deep Reinforcement Learning with Imitation Acceleration [44.40722828581203]
本稿では,各MECサーバにデプロイされた各エージェントのグローバル情報と分散意思決定に依存する集中型トレーニングを含む分散インテリジェントリソーススケジューリング(DIRS)フレームワークを提案する。
まず,マルチエージェント・アンサンブルを用いた分散強化学習(DRL)アーキテクチャを導入し,各エージェントの全体的なニューラルネットワーク構造を簡素化する。
第2に,提案したDIRSフレームワークの探索能力を高めるために,新しいL'evyフライトサーチにより,最適に近い状態対が得られた。
論文 参考訳(メタデータ) (2020-05-21T20:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。