論文の概要: Evolutionary Multi-Objective Reinforcement Learning Based Trajectory
Control and Task Offloading in UAV-Assisted Mobile Edge Computing
- arxiv url: http://arxiv.org/abs/2202.12028v1
- Date: Thu, 24 Feb 2022 11:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 18:10:13.564638
- Title: Evolutionary Multi-Objective Reinforcement Learning Based Trajectory
Control and Task Offloading in UAV-Assisted Mobile Edge Computing
- Title(参考訳): UAV支援モバイルエッジコンピューティングにおける進化的多目的強化学習に基づく軌道制御とタスクオフロード
- Authors: Fuhong Song, Huanlai Xing, Xinhan Wang, Shouxi Luo, Penglin Dai,
Zhiwen Xiao, Bowen Zhao
- Abstract要約: 本稿では,無人航空機(UAV)を用いた移動体エッジコンピューティングシステムにおける軌道制御とタスクオフロード(TCTO)問題について検討する。
進化的多目的RL(EMORL)、多目的RLをTCTO問題に適用する。
- 参考スコア(独自算出の注目度): 8.168647937560504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the trajectory control and task offloading (TCTO) problem
in an unmanned aerial vehicle (UAV)-assisted mobile edge computing system,
where a UAV flies along a planned trajectory to collect computation tasks from
smart devices (SDs). We consider a scenario that SDs are not directly connected
by the base station (BS) and the UAV has two roles to play: MEC server or
wireless relay. The UAV makes task offloading decisions online, in which the
collected tasks can be executed locally on the UAV or offloaded to the BS for
remote processing. The TCTO problem involves multi-objective optimization as
its objectives are to minimize the task delay and the UAV's energy consumption,
and maximize the number of tasks collected by the UAV, simultaneously. This
problem is challenging because the three objectives conflict with each other.
The existing reinforcement learning (RL) algorithms, either single-objective
RLs or single-policy multi-objective RLs, cannot well address the problem since
they cannot output multiple policies for various preferences (i.e. weights)
across objectives in a single run. This paper adapts the evolutionary
multi-objective RL (EMORL), a multi-policy multi-objective RL, to the TCTO
problem. This algorithm can output multiple optimal policies in just one run,
each optimizing a certain preference. The simulation results demonstrate that
the proposed algorithm can obtain more excellent nondominated policies by
striking a balance between the three objectives regarding policy quality,
compared with two evolutionary and two multi-policy RL algorithms.
- Abstract(参考訳): 本稿では,無人航空機(UAV)支援移動体エッジコンピューティングシステムにおけるトラジェクトリ制御とタスクオフロード(TCTO)問題について検討し,UAVが計画された軌道に沿って飛行し,スマートデバイス(SD)から計算タスクを収集する。
基地局(BS)とUAVが直接接続しないシナリオとして,MECサーバと無線中継という2つの役割がある。
UAVはタスクオフロード決定をオンラインで行い、収集したタスクをUAV上でローカルに実行したり、リモート処理のためにBSにオフロードしたりすることができる。
TCTOの問題は、タスク遅延とUAVのエネルギー消費を最小化し、UAVが収集したタスク数を同時に最大化することを目的として、多目的最適化を行う。
この問題は3つの目的が互いに衝突するため難しい。
既存の強化学習アルゴリズム(single-objective rlsまたはsingle-policy multi-objective rls)は、様々な好み(すなわち重み)に対して単一の実行で複数のポリシーを出力できないため、この問題にうまく対処できない。
本稿では,マルチポリシーなマルチ目的rlである進化的多目的rl(emorl)をtcto問題に適用する。
このアルゴリズムは、1つの実行で複数の最適なポリシーを出力でき、それぞれが特定の好みを最適化する。
シミュレーションの結果,提案手法は2つの進化型rlアルゴリズムと2つのマルチポリシーrlアルゴリズムと比較して,政策品質に関する3つの目標のバランスを取ることにより,より優れた非支配型ポリシーが得られることがわかった。
関連論文リスト
- DNN Task Assignment in UAV Networks: A Generative AI Enhanced Multi-Agent Reinforcement Learning Approach [16.139481340656552]
本稿では,マルチエージェント強化学習(MARL)と生成拡散モデル(GDM)を組み合わせた共同手法を提案する。
第2段階では,GDMのリバース・デノナイズ・プロセスを利用して,マルチエージェント・ディープ・Deep Deterministic Policy gradient(MADDPG)におけるアクタネットワークを置き換える新しいDNNタスク割当アルゴリズム(GDM-MADDPG)を導入する。
シミュレーションの結果,提案アルゴリズムは,経路計画,情報化時代(AoI),エネルギー消費,タスク負荷分散の観点から,ベンチマークに比較して良好な性能を示した。
論文 参考訳(メタデータ) (2024-11-13T02:41:02Z) - Multi-UAV Pursuit-Evasion with Online Planning in Unknown Environments by Deep Reinforcement Learning [16.761470423715338]
マルチUAV追跡回避は、UAV群知能にとって重要な課題である。
本研究では,協調戦略学習における部分的可観測性に対処するために,回避者予測強化ネットワークを導入する。
我々は、2段階の報酬改善を通じて実現可能な政策を導出し、ゼロショット方式で実四重項にポリシーを展開する。
論文 参考訳(メタデータ) (2024-09-24T08:40:04Z) - Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - Constrained multi-objective optimization for multi-UAV planning [5.574995936464475]
本研究では,制約満足度問題モデルと組み合わせた多目的進化アルゴリズムを用いてこの問題を解く。
このアルゴリズムは、複雑さを増大させるいくつかのミッションでテストされ、ミッションで考慮された異なる要素の計算複雑性が研究されている。
論文 参考訳(メタデータ) (2024-02-09T17:39:02Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT
Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement
Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。
本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。
提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文 参考訳(メタデータ) (2021-12-20T15:45:28Z) - Multi-Agent Deep Reinforcement Learning Based Trajectory Planning for
Multi-UAV Assisted Mobile Edge Computing [99.27205900403578]
無人航空機(UAV)支援移動エッジコンピューティング(MEC)フレームワークを提案する。
我々は,全ユーザ機器(UE)の地理的公正性と,各UAVのUE負荷の公平性を共同で最適化することを目的としている。
提案手法は他の従来のアルゴリズムよりもかなり性能が高いことを示す。
論文 参考訳(メタデータ) (2020-09-23T17:44:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。