論文の概要: Multi-UAV Path Planning for Wireless Data Harvesting with Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2010.12461v3
- Date: Thu, 3 Jun 2021 11:38:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 00:28:24.631309
- Title: Multi-UAV Path Planning for Wireless Data Harvesting with Deep
Reinforcement Learning
- Title(参考訳): 深部強化学習による無線データハーベスティングのためのマルチUAV経路計画
- Authors: Harald Bayerlein, Mirco Theile, Marco Caccamo, David Gesbert
- Abstract要約: 本稿では,データ収集ミッションを定義するシナリオパラメータの深い変化に適応できるマルチエージェント強化学習(MARL)手法を提案する。
提案するネットワークアーキテクチャにより,データ収集タスクを慎重に分割することで,エージェントが効果的に協調できることを示す。
- 参考スコア(独自算出の注目度): 18.266087952180733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Harvesting data from distributed Internet of Things (IoT) devices with
multiple autonomous unmanned aerial vehicles (UAVs) is a challenging problem
requiring flexible path planning methods. We propose a multi-agent
reinforcement learning (MARL) approach that, in contrast to previous work, can
adapt to profound changes in the scenario parameters defining the data
harvesting mission, such as the number of deployed UAVs, number, position and
data amount of IoT devices, or the maximum flying time, without the need to
perform expensive recomputations or relearn control policies. We formulate the
path planning problem for a cooperative, non-communicating, and homogeneous
team of UAVs tasked with maximizing collected data from distributed IoT sensor
nodes subject to flying time and collision avoidance constraints. The path
planning problem is translated into a decentralized partially observable Markov
decision process (Dec-POMDP), which we solve through a deep reinforcement
learning (DRL) approach, approximating the optimal UAV control policy without
prior knowledge of the challenging wireless channel characteristics in dense
urban environments. By exploiting a combination of centered global and local
map representations of the environment that are fed into convolutional layers
of the agents, we show that our proposed network architecture enables the
agents to cooperate effectively by carefully dividing the data collection task
among themselves, adapt to large complex environments and state spaces, and
make movement decisions that balance data collection goals, flight-time
efficiency, and navigation constraints. Finally, learning a control policy that
generalizes over the scenario parameter space enables us to analyze the
influence of individual parameters on collection performance and provide some
intuition about system-level benefits.
- Abstract(参考訳): 複数の無人無人航空機(UAV)を搭載した分散IoT(Internet of Things)デバイスからのデータをハーベスティングすることは、柔軟な経路計画手法を必要とする難しい問題である。
我々は,従来の研究とは対照的に,展開されたUAVの数,数,位置,IoTデバイスのデータ量,最大飛行時間などのデータ収集ミッションを定義するシナリオパラメータに,高価な再計算や再学習を必要とせずに,深く適応できるマルチエージェント強化学習(MARL)アプローチを提案する。
我々は,空飛ぶ時間と衝突回避制約を考慮した分散IoTセンサノードから収集したデータを最大化するUAVの協力的,非コミュニケーション的,均質なチームのための経路計画問題を定式化する。
経路計画問題は分散部分可観測マルコフ決定プロセス (dec-pomdp) に変換され, 密集都市環境における難解な無線チャネル特性を事前に知ることなく, 最適uav制御ポリシを近似して, 深層強化学習 (drl) により解決する。
提案するネットワークアーキテクチャは,エージェントの畳み込み層に供給される環境の集中的なグローバルマップ表現とローカルマップ表現の組み合わせを利用することで,エージェントがデータ収集タスクを慎重に分割し,大規模複雑な環境や状態空間に適応し,データ収集目標,飛行時間効率,ナビゲーション制約をバランスさせる動作決定を行うことにより,エージェントが効果的に連携できることを示す。
最後に、シナリオパラメータ空間を一般化する制御ポリシーを学習することにより、個々のパラメータが収集性能に与える影響を分析し、システムレベルの利点に関する直感を提供する。
関連論文リスト
- Multi-Agent Reinforcement Learning for Offloading Cellular Communications with Cooperating UAVs [21.195346908715972]
無人航空機は、地上のBSからデータトラフィックをオフロードする代替手段を提供する。
本稿では,地上BSからデータオフロードを行うために,複数のUAVを効率的に利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T12:36:08Z) - Multi-Objective Optimization for UAV Swarm-Assisted IoT with Virtual
Antenna Arrays [55.736718475856726]
無人航空機(UAV)ネットワークはIoT(Internet-of-Things)を支援するための有望な技術である
既存のUAV支援データ収集および普及スキームでは、UAVはIoTとアクセスポイントの間を頻繁に飛行する必要がある。
協調ビームフォーミングをIoTとUAVに同時に導入し、エネルギーと時間効率のデータ収集と普及を実現した。
論文 参考訳(メタデータ) (2023-08-03T02:49:50Z) - Integrated Sensing, Computation, and Communication for UAV-assisted
Federated Edge Learning [52.7230652428711]
フェデレーションエッジ学習(FEEL)は、エッジデバイスとサーバ間の定期的な通信を通じて、プライバシ保護モデルトレーニングを可能にする。
無人航空機(UAV)搭載エッジデバイスは、効率的なデータ収集における柔軟性と移動性のため、FEELにとって特に有利である。
論文 参考訳(メタデータ) (2023-06-05T16:01:33Z) - Muti-Agent Proximal Policy Optimization For Data Freshness in
UAV-assisted Networks [4.042622147977782]
収集したデータが時間に敏感な場合に注目し,そのタイムラインを維持することが重要である。
我々の目標は、UAVの軌道を最適に設計することであり、グローバル・エイジ・オブ・アップデート(AoU)のような訪問するIoTデバイスのサブセットを最小化することである。
論文 参考訳(メタデータ) (2023-03-15T15:03:09Z) - Adaptive Path Planning for UAVs for Multi-Resolution Semantic
Segmentation [28.104584236205405]
重要な課題は、大規模な環境で取得したデータの価値を最大化するミッションを計画することである。
これは例えば、農地のモニタリングに関係している。
本稿では,UAV経路に適応して高精細なセマンティックセマンティックセマンティクスを得るオンライン計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-03T11:03:28Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Adaptive Anomaly Detection for Internet of Things in Hierarchical Edge
Computing: A Contextual-Bandit Approach [81.5261621619557]
階層エッジコンピューティング(HEC)を用いた適応型異常検出手法を提案する。
まず,複雑性を増した複数のDNNモデルを構築し,それぞれを対応するHEC層に関連付ける。
そこで我々は、文脈帯域問題として定式化され、強化学習ポリシーネットワークを用いて解決される適応モデル選択スキームを設計する。
論文 参考訳(メタデータ) (2021-08-09T08:45:47Z) - Trajectory Design for UAV-Based Internet-of-Things Data Collection: A
Deep Reinforcement Learning Approach [93.67588414950656]
本稿では,無人航空機(UAV)による3D環境におけるIoT(Internet-of-Things)システムについて検討する。
本稿では,TD3-TDCTMアルゴリズムの完成時間最小化のためのトラジェクトリ設計を提案する。
シミュレーションの結果,従来の3つの非学習ベースライン法よりもTD3-TDCTMアルゴリズムの方が優れていることが示された。
論文 参考訳(メタデータ) (2021-07-23T03:33:29Z) - UAV Path Planning using Global and Local Map Information with Deep
Reinforcement Learning [16.720630804675213]
本研究は, 深部強化学習(DRL)に基づく自律型UAV経路計画法を提案する。
我々は、UAVの目標は、データ収集(DH)への関心領域を調査することであり、UAVは分散IoT(Internet of Things)センサーデバイスからデータを収集することである。
環境の構造化マップ情報を活用することで、異なるミッションシナリオで同一のアーキテクチャを持つ二重深度Q-networks(DDQN)を訓練する。
論文 参考訳(メタデータ) (2020-10-14T09:59:10Z) - UAV Path Planning for Wireless Data Harvesting: A Deep Reinforcement
Learning Approach [18.266087952180733]
本稿では,IoT(Internet of Things)デバイスからのUAV対応データ収集に対するエンドツーエンド強化学習手法を提案する。
自律ドローンは、限られた飛行時間と障害物回避を受ける分散センサーノードからデータを収集する。
提案するネットワークアーキテクチャにより,エージェントが様々なシナリオパラメータの移動決定を行うことができることを示す。
論文 参考訳(メタデータ) (2020-07-01T15:14:16Z) - Data Freshness and Energy-Efficient UAV Navigation Optimization: A Deep
Reinforcement Learning Approach [88.45509934702913]
我々は、移動基地局(BS)が配備される複数の無人航空機(UAV)のナビゲーションポリシーを設計する。
我々は、地上BSにおけるデータの鮮度を確保するために、エネルギーや情報年齢(AoI)の制約などの異なる文脈情報を組み込んだ。
提案したトレーニングモデルを適用することで、UAV-BSに対する効果的なリアルタイム軌道ポリシーは、時間とともに観測可能なネットワーク状態をキャプチャする。
論文 参考訳(メタデータ) (2020-02-21T07:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。