論文の概要: Stacked Auto Encoder Based Deep Reinforcement Learning for Online
Resource Scheduling in Large-Scale MEC Networks
- arxiv url: http://arxiv.org/abs/2001.09223v2
- Date: Tue, 14 Apr 2020 21:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 05:07:10.727773
- Title: Stacked Auto Encoder Based Deep Reinforcement Learning for Online
Resource Scheduling in Large-Scale MEC Networks
- Title(参考訳): 大規模MECネットワークにおけるオンラインリソーススケジューリングのためのスタック型オートエンコーダによる深層強化学習
- Authors: Feibo Jiang, Kezhi Wang, Li Dong, Cunhua Pan, Kun Yang
- Abstract要約: オンラインリソーススケジューリングフレームワークは、IoT(Internet of Things)の全ユーザに対して、重み付けされたタスクレイテンシの総和を最小化するために提案されている。
以下を含む深層強化学習(DRL)に基づく解法を提案する。
DRLがポリシーネットワークをトレーニングし、最適なオフロードポリシーを見つけるのを支援するために、保存および優先されたエクスペリエンスリプレイ(2p-ER)を導入する。
- 参考スコア(独自算出の注目度): 44.40722828581203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An online resource scheduling framework is proposed for minimizing the sum of
weighted task latency for all the Internet of things (IoT) users, by optimizing
offloading decision, transmission power and resource allocation in the
large-scale mobile edge computing (MEC) system. Towards this end, a deep
reinforcement learning (DRL) based solution is proposed, which includes the
following components. Firstly, a related and regularized stacked auto encoder
(2r-SAE) with unsupervised learning is applied to perform data compression and
representation for high dimensional channel quality information (CQI) data,
which can reduce the state space for DRL. Secondly, we present an adaptive
simulated annealing based approach (ASA) as the action search method of DRL, in
which an adaptive h-mutation is used to guide the search direction and an
adaptive iteration is proposed to enhance the search efficiency during the DRL
process. Thirdly, a preserved and prioritized experience replay (2p-ER) is
introduced to assist the DRL to train the policy network and find the optimal
offloading policy. Numerical results are provided to demonstrate that the
proposed algorithm can achieve near-optimal performance while significantly
decreasing the computational time compared with existing benchmarks.
- Abstract(参考訳): 大規模モバイルエッジコンピューティング(MEC)システムにおいて、オフロード決定、送信電力、リソース割り当てを最適化することにより、IoT(Internet of Things)ユーザのタスク遅延の重み付けを最小化するためのオンラインリソーススケジューリングフレームワークを提案する。
この目的のために、以下のコンポーネントを含む深層強化学習(DRL)に基づくソリューションを提案する。
まず、教師なし学習を伴う関連かつ規則化されたスタックドオートエンコーダ(2r-SAE)を適用して、高次元チャネル品質情報(CQI)データに対するデータ圧縮および表現を行い、DRLの状態を低減できる。
次に,drlの動作探索法として,適応型アニーリングに基づくアプローチ(asa)を提案し,探索方向の誘導に適応型h変換を用い,drlプロセス中の探索効率を高めるために適応型反復を提案する。
第3に、DRLがポリシーネットワークをトレーニングし、最適なオフロードポリシーを見つけるのを支援するために、保存および優先されたエクスペリエンスリプレイ(2p-ER)を導入する。
提案アルゴリズムは,既存のベンチマークと比較して計算時間を著しく短縮し,ほぼ最適性能が得られることを示した。
関連論文リスト
- Deep Reinforcement Learning for Dynamic Resource Allocation in Wireless Networks [0.0]
本報告では,無線通信システムにおける動的リソース割り当てに対する深部強化学習(DRL)アルゴリズムの適用について検討する。
アルゴリズムと学習率の選択はシステム性能に大きく影響を与え、DRLは従来の手法よりも効率的なリソース割り当てを提供する。
論文 参考訳(メタデータ) (2025-02-03T07:49:00Z) - Event-Triggered Reinforcement Learning Based Joint Resource Allocation for Ultra-Reliable Low-Latency V2X Communications [10.914558012458425]
6G対応車載ネットワークは、安全クリティカルな情報をタイムリーに提供するための低遅延通信(URLLC)を確保するという課題に直面している。
車両間通信システム(V2X)の従来のリソース割り当てスキームは、従来の復号法に基づくアルゴリズムに依存している。
論文 参考訳(メタデータ) (2024-07-18T23:55:07Z) - Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - DRL-based Slice Placement under Realistic Network Load Conditions [0.8459686722437155]
本稿では,Deep Reinforcement Learning(DRL)に基づくネットワークスライス配置最適化手法を提案する。
このソリューションは大規模かつ静止しない交通条件下でのネットワーク(すなわちネットワーク負荷)に適応する。
提案手法の適用性と,非制御DRLソリューションよりも高い,安定した性能を示す。
論文 参考訳(メタデータ) (2021-09-27T07:58:45Z) - On the Robustness of Controlled Deep Reinforcement Learning for Slice
Placement [0.8459686722437155]
我々は、純粋なDRLベースアルゴリズムとハイブリッドDRLヒューリスティックアルゴリズムである2つのDeep Reinforcement Learningアルゴリズムを比較した。
評価結果から,提案手法は純粋なDRLよりも予測不可能なネットワーク負荷変化の場合に,より堅牢で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2021-08-05T10:24:33Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。