論文の概要: Model-aided Deep Reinforcement Learning for Sample-efficient UAV
Trajectory Design in IoT Networks
- arxiv url: http://arxiv.org/abs/2104.10403v1
- Date: Wed, 21 Apr 2021 08:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:10:38.077964
- Title: Model-aided Deep Reinforcement Learning for Sample-efficient UAV
Trajectory Design in IoT Networks
- Title(参考訳): IoTネットワークにおけるUAV軌道設計のためのモデル支援深部強化学習
- Authors: Omid Esrafilian, Harald Bayerlein, and David Gesbert
- Abstract要約: 飛行時間制限されたUAVをデータハーベスティングミッションに導くためのモデル支援型深層Q-ラーニング手法を提案する。
標準DRL手法と比較して,提案手法では,同一データ収集性能に到達するためには,少なくとも1桁のトレーニングデータサンプルを必要とする。
- 参考スコア(独自算出の注目度): 20.303937220315177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) has become a prominent paradigm to design
trajectories for autonomous unmanned aerial vehicles (UAV) used as flying
access points in the context of cellular or Internet of Things (IoT)
connectivity. However, the prohibitively high training data demand severely
restricts the applicability of RL-based trajectory planning in real-world
missions. We propose a model-aided deep Q-learning approach that, in contrast
to previous work, requires a minimum of expensive training data samples and is
able to guide a flight-time restricted UAV on a data harvesting mission without
prior knowledge of wireless channel characteristics and limited knowledge of
wireless node locations. By exploiting some known reference wireless node
positions and channel gain measurements, we seek to learn a model of the
environment by estimating unknown node positions and learning the wireless
channel characteristics. Interaction with the model allows us to train a deep
Q-network (DQN) to approximate the optimal UAV control policy. We show that in
comparison with standard DRL approaches, the proposed model-aided approach
requires at least one order of magnitude less training data samples to reach
identical data collection performance, hence offering a first step towards
making DRL a viable solution to the problem.
- Abstract(参考訳): Deep Reinforcement Learning (DRL) は、セルラーまたはIoT(Internet of Things)接続のコンテキストにおいて、飛行アクセスポイントとして使用される自律無人航空機(UAV)の軌道を設計するための重要なパラダイムとなっている。
しかし、厳格に高いトレーニングデータ要求は、実世界のミッションにおけるRLベースの軌道計画の適用性を厳しく制限する。
提案手法は,従来の研究とは対照的に,最低限の訓練データサンプルが必要であり,無線チャネル特性や無線ノード位置の限られた知識を事前に知ることなく,データ収集ミッションにおいて,飛行時間に制限されたUAVを誘導することができる。
既知の参照無線ノードの位置とチャネル利得測定を活用し、未知のノード位置を推定し、無線チャネル特性を学習することにより、環境のモデルを学習する。
モデルとのインタラクションにより、DQN(Deep Q-network)をトレーニングし、最適なUAV制御ポリシを近似することができる。
提案手法は, 標準DRL手法と比較して, 同一データ収集性能に到達するためには, 少なくとも1桁のトレーニングデータサンプルが必要であり, DRLをこの問題に対して実行可能なソリューションにするための第一歩となることを示す。
関連論文リスト
- Deep Learning for Trajectory Data Management and Mining: A Survey and Beyond [58.63558696061679]
軌道計算は、位置サービス、都市交通、公共安全など、様々な実用用途において重要である。
トラジェクトリ・コンピューティングのためのディープラーニング(DL4Traj)の開発と最近の進歩について概観する。
特に、軌道計算を増強する可能性を持つ大規模言語モデル(LLM)の最近の進歩をカプセル化する。
論文 参考訳(メタデータ) (2024-03-21T05:57:27Z) - Joint Path planning and Power Allocation of a Cellular-Connected UAV
using Apprenticeship Learning via Deep Inverse Reinforcement Learning [7.760962597460447]
本稿では,郊外環境におけるセルラー接続型無人航空機(UAV)の干渉対応共同経路計画と電力配分機構について検討する。
UAVは、そのアップリンクスループットを最大化し、近隣のBSに接続された地上ユーザ機器(UE)への干渉のレベルを最小化することを目的としている。
Q-learning と深層強化学習 (DRL) を併用した逆強化学習 (IRL) による見習い学習手法
論文 参考訳(メタデータ) (2023-06-15T20:50:05Z) - Muti-Agent Proximal Policy Optimization For Data Freshness in
UAV-assisted Networks [4.042622147977782]
収集したデータが時間に敏感な場合に注目し,そのタイムラインを維持することが重要である。
我々の目標は、UAVの軌道を最適に設計することであり、グローバル・エイジ・オブ・アップデート(AoU)のような訪問するIoTデバイスのサブセットを最小化することである。
論文 参考訳(メタデータ) (2023-03-15T15:03:09Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z) - Joint Cluster Head Selection and Trajectory Planning in UAV-Aided IoT
Networks by Reinforcement Learning with Sequential Model [4.273341750394231]
我々は、UAVの軌道を共同で設計し、インターネット・オブ・シングス・ネットワークでクラスタ・ヘッドを選択するという問題を定式化する。
本稿では,シーケンス・ツー・シーケンス・ニューラルネットワークで表されるポリシーを効果的に学習できるシーケンシャルモデル戦略を備えた,新しい深層強化学習(DRL)を提案する。
シミュレーションにより,提案したDRL法は,より少ないエネルギー消費を必要とするUAVの軌道を見つけることができることを示した。
論文 参考訳(メタデータ) (2021-12-01T07:59:53Z) - Trajectory Design for UAV-Based Internet-of-Things Data Collection: A
Deep Reinforcement Learning Approach [93.67588414950656]
本稿では,無人航空機(UAV)による3D環境におけるIoT(Internet-of-Things)システムについて検討する。
本稿では,TD3-TDCTMアルゴリズムの完成時間最小化のためのトラジェクトリ設計を提案する。
シミュレーションの結果,従来の3つの非学習ベースライン法よりもTD3-TDCTMアルゴリズムの方が優れていることが示された。
論文 参考訳(メタデータ) (2021-07-23T03:33:29Z) - 3D UAV Trajectory and Data Collection Optimisation via Deep
Reinforcement Learning [75.78929539923749]
無人航空機(UAV)は現在、無線通信におけるネットワーク性能とカバレッジを高めるために配備され始めている。
UAV支援モノのインターネット(IoT)のための最適な資源配分方式を得ることは困難である
本稿では,UAVの最も短い飛行経路に依存しつつ,IoTデバイスから収集したデータ量を最大化しながら,新しいUAV支援IoTシステムを設計する。
論文 参考訳(メタデータ) (2021-06-06T14:08:41Z) - UAV Path Planning for Wireless Data Harvesting: A Deep Reinforcement
Learning Approach [18.266087952180733]
本稿では,IoT(Internet of Things)デバイスからのUAV対応データ収集に対するエンドツーエンド強化学習手法を提案する。
自律ドローンは、限られた飛行時間と障害物回避を受ける分散センサーノードからデータを収集する。
提案するネットワークアーキテクチャにより,エージェントが様々なシナリオパラメータの移動決定を行うことができることを示す。
論文 参考訳(メタデータ) (2020-07-01T15:14:16Z) - Data Freshness and Energy-Efficient UAV Navigation Optimization: A Deep
Reinforcement Learning Approach [88.45509934702913]
我々は、移動基地局(BS)が配備される複数の無人航空機(UAV)のナビゲーションポリシーを設計する。
我々は、地上BSにおけるデータの鮮度を確保するために、エネルギーや情報年齢(AoI)の制約などの異なる文脈情報を組み込んだ。
提案したトレーニングモデルを適用することで、UAV-BSに対する効果的なリアルタイム軌道ポリシーは、時間とともに観測可能なネットワーク状態をキャプチャする。
論文 参考訳(メタデータ) (2020-02-21T07:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。