論文の概要: DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV
- arxiv url: http://arxiv.org/abs/2208.02447v3
- Date: Tue, 6 Jun 2023 07:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 22:03:39.573372
- Title: DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV
- Title(参考訳): DL-DRL:マルチUAVの大規模タスクスケジューリングのための二重レベル深層強化学習手法
- Authors: Xiao Mao, Zhiguang Cao, Mingfeng Fan, Guohua Wu, and Witold Pedrycz
- Abstract要約: 分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
- 参考スコア(独自算出の注目度): 65.07776277630228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploiting unmanned aerial vehicles (UAVs) to execute tasks is gaining
growing popularity recently. To solve the underlying task scheduling problem,
the deep reinforcement learning (DRL) based methods demonstrate notable
advantage over the conventional heuristics as they rely less on hand-engineered
rules. However, their decision space will become prohibitively huge as the
problem scales up, thus deteriorating the computation efficiency. To alleviate
this issue, we propose a double-level deep reinforcement learning (DL-DRL)
approach based on a divide and conquer framework (DCF), where we decompose the
task scheduling of multi-UAV into task allocation and route planning.
Particularly, we design an encoder-decoder structured policy network in our
upper-level DRL model to allocate the tasks to different UAVs, and we exploit
another attention based policy network in our lower-level DRL model to
construct the route for each UAV, with the objective to maximize the number of
executed tasks given the maximum flight distance of the UAV. To effectively
train the two models, we design an interactive training strategy (ITS), which
includes pre-training, intensive training and alternate training. Experimental
results show that our DL-DRL performs favorably against the learning-based and
conventional baselines including the OR-Tools, in terms of solution quality and
computation efficiency. We also verify the generalization performance of our
approach by applying it to larger sizes of up to 1000 tasks. Moreover, we also
show via an ablation study that our ITS can help achieve a balance between the
performance and training efficiency.
- Abstract(参考訳): 無人航空機(UAV)によるタスク実行は近年人気が高まっている。
タスクスケジューリングの課題を解決するため、DRLに基づく手法は、手作業によるルールに依存しない従来のヒューリスティックスに対して顕著な優位性を示す。
しかし、その決定空間は、問題が大きくなるにつれて著しく巨大になり、計算効率が低下する。
この問題を軽減するために,多UAVのタスクスケジューリングをタスク割り当てと経路計画に分解する分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層階のDRLモデルにおいて,タスクを異なるUAVに割り当てるためのエンコーダ・デコーダ構成ポリシネットワークを設計し,下層階のDRLモデルでは,各UAVの経路を構築するために,UAVの最大飛行距離を最大化するために,別の注意に基づくポリシーネットワークを利用する。
2つのモデルを効果的に訓練するために,事前トレーニング,集中トレーニング,代替トレーニングを含む対話型トレーニング戦略(ITS)を設計する。
実験結果から,我々のDL-DRLは,OR-Toolsを含む学習ベースラインや従来のベースラインに対して,ソリューションの品質と計算効率の観点から好意的に作用することが示された。
また,最大1000タスクの大規模化に適用することにより,本手法の一般化性能を検証する。
さらに,我々のITSは,パフォーマンスとトレーニング効率のバランスをとる上で有効であることを示す。
関連論文リスト
- Multi-agent Path Finding for Timed Tasks using Evolutionary Games [1.3023548510259344]
我々のアルゴリズムは,少なくとも1桁の精度で深部RL法よりも高速であることを示す。
以上の結果から,他の方法と比較してエージェント数の増加にともなってスケールが向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-15T20:10:25Z) - UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Enhancing Secrecy in UAV RSMA Networks: Deep Unfolding Meets Deep Reinforcement Learning [0.8287206589886881]
我々は、複数の無人航空機(UAV)速度軌道(SMAR)における秘密のネットワークを考える。
提案した深部強化学習(DRL)は,他のDRL法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-30T12:26:24Z) - Muti-Agent Proximal Policy Optimization For Data Freshness in
UAV-assisted Networks [4.042622147977782]
収集したデータが時間に敏感な場合に注目し,そのタイムラインを維持することが重要である。
我々の目標は、UAVの軌道を最適に設計することであり、グローバル・エイジ・オブ・アップデート(AoU)のような訪問するIoTデバイスのサブセットを最小化することである。
論文 参考訳(メタデータ) (2023-03-15T15:03:09Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Evolutionary Multi-Objective Reinforcement Learning Based Trajectory
Control and Task Offloading in UAV-Assisted Mobile Edge Computing [8.168647937560504]
本稿では,無人航空機(UAV)を用いた移動体エッジコンピューティングシステムにおける軌道制御とタスクオフロード(TCTO)問題について検討する。
進化的多目的RL(EMORL)、多目的RLをTCTO問題に適用する。
論文 参考訳(メタデータ) (2022-02-24T11:17:30Z) - Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT
Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement
Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。
本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。
提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文 参考訳(メタデータ) (2021-12-20T15:45:28Z) - Joint Cluster Head Selection and Trajectory Planning in UAV-Aided IoT
Networks by Reinforcement Learning with Sequential Model [4.273341750394231]
我々は、UAVの軌道を共同で設計し、インターネット・オブ・シングス・ネットワークでクラスタ・ヘッドを選択するという問題を定式化する。
本稿では,シーケンス・ツー・シーケンス・ニューラルネットワークで表されるポリシーを効果的に学習できるシーケンシャルモデル戦略を備えた,新しい深層強化学習(DRL)を提案する。
シミュレーションにより,提案したDRL法は,より少ないエネルギー消費を必要とするUAVの軌道を見つけることができることを示した。
論文 参考訳(メタデータ) (2021-12-01T07:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。