論文の概要: DL-DRL: A double-layer deep reinforcement learning approach for
large-scale task scheduling of multi-UAV
- arxiv url: http://arxiv.org/abs/2208.02447v1
- Date: Thu, 4 Aug 2022 04:35:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 13:15:11.136353
- Title: DL-DRL: A double-layer deep reinforcement learning approach for
large-scale task scheduling of multi-UAV
- Title(参考訳): DL-DRL:マルチUAVの大規模タスクスケジューリングのための2層深層強化学習手法
- Authors: Xiao Mao, Guohua Wu, and Mingfeng Fan
- Abstract要約: 本稿では,複数の無人航空機(UAV)のタスクスケジューリング問題に対する深部強化学習(DRL)について検討する。
自己学習法として、DRLは手書きのルールを使わずに、高品質なソリューションを迅速に得ることができる。
本研究では,従来の問題をタスク割り当てとUAV経路計画サブプロブレムに分離する分割・征服型フレームワーク(DCF)を開発した。
- 参考スコア(独自算出の注目度): 1.474723404975345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies deep reinforcement learning (DRL) for the task scheduling
problem of multiple unmanned aerial vehicles (UAVs). Current approaches
generally use exact and heuristic algorithms to solve the problem, while the
computation time rapidly increases as the task scale grows and heuristic rules
need manual design. As a self-learning method, DRL can obtain a high-quality
solution quickly without hand-engineered rules. However, the huge decision
space makes the training of DRL models becomes unstable in situations with
large-scale tasks. In this work, to address the large-scale problem, we develop
a divide and conquer-based framework (DCF) to decouple the original problem
into a task allocation and a UAV route planning subproblems, which are solved
in the upper and lower layers, respectively. Based on DCF, a double-layer deep
reinforcement learning approach (DL-DRL) is proposed, where an upper-layer DRL
model is designed to allocate tasks to appropriate UAVs and a lower-layer DRL
model [i.e., the widely used attention model (AM)] is applied to generate
viable UAV routes. Since the upper-layer model determines the input data
distribution of the lower-layer model, and its reward is calculated via the
lower-layer model during training, we develop an interactive training strategy
(ITS), where the whole training process consists of pre-training, intensive
training, and alternate training processes. Experimental results show that our
DL-DRL outperforms mainstream learning-based and most traditional methods, and
is competitive with the state-of-the-art heuristic method [i.e., OR-Tools],
especially on large-scale problems. The great generalizability of DL-DRL is
also verified by testing the model learned for a problem size to larger ones.
Furthermore, an ablation study demonstrates that our ITS can reach a compromise
between the model performance and training duration.
- Abstract(参考訳): 本稿では,無人航空機(UAV)のタスクスケジューリング問題に対する深部強化学習(DRL)について検討する。
現在のアプローチでは、タスクのスケールが拡大し、ヒューリスティックなルールが手動設計を必要とするため、計算時間は急速に増加する一方、厳密でヒューリスティックなアルゴリズムを用いるのが一般的である。
自己学習法として、DRLは手書きのルールなしで高品質なソリューションを迅速に得ることができる。
しかし,大規模なタスクを抱える状況では,DRLモデルのトレーニングが不安定になる。
本研究では, 大規模問題に対処するため, 従来の問題をタスクアロケーションとUAV経路計画サブプロブレムに分離する分割・征服型フレームワーク(DCF)を開発し, それぞれ上層と下層に解決した。
DCFに基づく2層強化学習手法 (DL-DRL) を提案し, 上位層DRLモデルが適切なUAVにタスクを割り当てるように設計され, 下位層DRLモデル (AM) が有効なUAV経路を生成する。
上層モデルが下層モデルの入力データ分布を決定し,その報酬はトレーニング中に下層モデルを介して計算されるので,トレーニングプロセス全体が事前トレーニング,集中トレーニング,代替トレーニングプロセスで構成された対話型トレーニング戦略(ITS)を開発する。
実験結果から,我々のDL-DRLは主流の学習法や従来の手法よりも優れており,特に大規模問題において最先端のヒューリスティック手法(OR-Tools)と競合することがわかった。
DL-DRLの大幅な一般化性は、より大きな問題に対して学習したモデルをテストすることによって検証される。
さらに、アブレーション調査では、私たちのITSがモデルパフォーマンスとトレーニング期間の妥協点に達することが示されています。
関連論文リスト
- Multi-agent Path Finding for Timed Tasks using Evolutionary Games [1.3023548510259344]
我々のアルゴリズムは,少なくとも1桁の精度で深部RL法よりも高速であることを示す。
以上の結果から,他の方法と比較してエージェント数の増加にともなってスケールが向上することが示唆された。
論文 参考訳(メタデータ) (2024-11-15T20:10:25Z) - UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - Enhancing Secrecy in UAV RSMA Networks: Deep Unfolding Meets Deep Reinforcement Learning [0.8287206589886881]
我々は、複数の無人航空機(UAV)速度軌道(SMAR)における秘密のネットワークを考える。
提案した深部強化学習(DRL)は,他のDRL法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-09-30T12:26:24Z) - Muti-Agent Proximal Policy Optimization For Data Freshness in
UAV-assisted Networks [4.042622147977782]
収集したデータが時間に敏感な場合に注目し,そのタイムラインを維持することが重要である。
我々の目標は、UAVの軌道を最適に設計することであり、グローバル・エイジ・オブ・アップデート(AoU)のような訪問するIoTデバイスのサブセットを最小化することである。
論文 参考訳(メタデータ) (2023-03-15T15:03:09Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Evolutionary Multi-Objective Reinforcement Learning Based Trajectory
Control and Task Offloading in UAV-Assisted Mobile Edge Computing [8.168647937560504]
本稿では,無人航空機(UAV)を用いた移動体エッジコンピューティングシステムにおける軌道制御とタスクオフロード(TCTO)問題について検討する。
進化的多目的RL(EMORL)、多目的RLをTCTO問題に適用する。
論文 参考訳(メタデータ) (2022-02-24T11:17:30Z) - Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT
Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement
Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。
本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。
提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文 参考訳(メタデータ) (2021-12-20T15:45:28Z) - Joint Cluster Head Selection and Trajectory Planning in UAV-Aided IoT
Networks by Reinforcement Learning with Sequential Model [4.273341750394231]
我々は、UAVの軌道を共同で設計し、インターネット・オブ・シングス・ネットワークでクラスタ・ヘッドを選択するという問題を定式化する。
本稿では,シーケンス・ツー・シーケンス・ニューラルネットワークで表されるポリシーを効果的に学習できるシーケンシャルモデル戦略を備えた,新しい深層強化学習(DRL)を提案する。
シミュレーションにより,提案したDRL法は,より少ないエネルギー消費を必要とするUAVの軌道を見つけることができることを示した。
論文 参考訳(メタデータ) (2021-12-01T07:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。