論文の概要: Stacked Auto Encoder Based Deep Reinforcement Learning for Online
Resource Scheduling in Large-Scale MEC Networks
- arxiv url: http://arxiv.org/abs/2001.09223v2
- Date: Tue, 14 Apr 2020 21:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 05:07:10.727773
- Title: Stacked Auto Encoder Based Deep Reinforcement Learning for Online
Resource Scheduling in Large-Scale MEC Networks
- Title(参考訳): 大規模MECネットワークにおけるオンラインリソーススケジューリングのためのスタック型オートエンコーダによる深層強化学習
- Authors: Feibo Jiang, Kezhi Wang, Li Dong, Cunhua Pan, Kun Yang
- Abstract要約: オンラインリソーススケジューリングフレームワークは、IoT(Internet of Things)の全ユーザに対して、重み付けされたタスクレイテンシの総和を最小化するために提案されている。
以下を含む深層強化学習(DRL)に基づく解法を提案する。
DRLがポリシーネットワークをトレーニングし、最適なオフロードポリシーを見つけるのを支援するために、保存および優先されたエクスペリエンスリプレイ(2p-ER)を導入する。
- 参考スコア(独自算出の注目度): 44.40722828581203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An online resource scheduling framework is proposed for minimizing the sum of
weighted task latency for all the Internet of things (IoT) users, by optimizing
offloading decision, transmission power and resource allocation in the
large-scale mobile edge computing (MEC) system. Towards this end, a deep
reinforcement learning (DRL) based solution is proposed, which includes the
following components. Firstly, a related and regularized stacked auto encoder
(2r-SAE) with unsupervised learning is applied to perform data compression and
representation for high dimensional channel quality information (CQI) data,
which can reduce the state space for DRL. Secondly, we present an adaptive
simulated annealing based approach (ASA) as the action search method of DRL, in
which an adaptive h-mutation is used to guide the search direction and an
adaptive iteration is proposed to enhance the search efficiency during the DRL
process. Thirdly, a preserved and prioritized experience replay (2p-ER) is
introduced to assist the DRL to train the policy network and find the optimal
offloading policy. Numerical results are provided to demonstrate that the
proposed algorithm can achieve near-optimal performance while significantly
decreasing the computational time compared with existing benchmarks.
- Abstract(参考訳): 大規模モバイルエッジコンピューティング(MEC)システムにおいて、オフロード決定、送信電力、リソース割り当てを最適化することにより、IoT(Internet of Things)ユーザのタスク遅延の重み付けを最小化するためのオンラインリソーススケジューリングフレームワークを提案する。
この目的のために、以下のコンポーネントを含む深層強化学習(DRL)に基づくソリューションを提案する。
まず、教師なし学習を伴う関連かつ規則化されたスタックドオートエンコーダ(2r-SAE)を適用して、高次元チャネル品質情報(CQI)データに対するデータ圧縮および表現を行い、DRLの状態を低減できる。
次に,drlの動作探索法として,適応型アニーリングに基づくアプローチ(asa)を提案し,探索方向の誘導に適応型h変換を用い,drlプロセス中の探索効率を高めるために適応型反復を提案する。
第3に、DRLがポリシーネットワークをトレーニングし、最適なオフロードポリシーを見つけるのを支援するために、保存および優先されたエクスペリエンスリプレイ(2p-ER)を導入する。
提案アルゴリズムは,既存のベンチマークと比較して計算時間を著しく短縮し,ほぼ最適性能が得られることを示した。
関連論文リスト
- MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - A Distributed Deep Reinforcement Learning Technique for Application
Placement in Edge and Fog Computing Environments [31.326505188936746]
フォグ/エッジコンピューティング環境において, DRL(Deep Reinforcement Learning)に基づく配置技術が提案されている。
IMPortance weighted Actor-Learner Architectures (IMPALA) に基づくアクタ批判に基づく分散アプリケーション配置手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T11:25:03Z) - DRL-based Slice Placement under Realistic Network Load Conditions [0.8459686722437155]
本稿では,Deep Reinforcement Learning(DRL)に基づくネットワークスライス配置最適化手法を提案する。
このソリューションは大規模かつ静止しない交通条件下でのネットワーク(すなわちネットワーク負荷)に適応する。
提案手法の適用性と,非制御DRLソリューションよりも高い,安定した性能を示す。
論文 参考訳(メタデータ) (2021-09-27T07:58:45Z) - On the Robustness of Controlled Deep Reinforcement Learning for Slice
Placement [0.8459686722437155]
我々は、純粋なDRLベースアルゴリズムとハイブリッドDRLヒューリスティックアルゴリズムである2つのDeep Reinforcement Learningアルゴリズムを比較した。
評価結果から,提案手法は純粋なDRLよりも予測不可能なネットワーク負荷変化の場合に,より堅牢で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2021-08-05T10:24:33Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - Dynamic RAN Slicing for Service-Oriented Vehicular Networks via
Constrained Learning [40.5603189901241]
品質の異なる車両用インターネット(IoV)サービスにおける無線アクセスネットワーク(RAN)スライシング問題について検討する。
無線スペクトルと演算資源を動的に割り当てる動的RANスライシングフレームワークを提案する。
RAWSは,ベンチマークと比較すると,要求を高い確率で満たしながら,システムコストを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2020-12-03T15:08:38Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。