論文の概要: Muti-Agent Proximal Policy Optimization For Data Freshness in
UAV-assisted Networks
- arxiv url: http://arxiv.org/abs/2303.08680v1
- Date: Wed, 15 Mar 2023 15:03:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 18:07:59.954709
- Title: Muti-Agent Proximal Policy Optimization For Data Freshness in
UAV-assisted Networks
- Title(参考訳): UAV支援ネットワークにおけるデータの鮮度に対するマルチエージェント近似最適化
- Authors: Mouhamed Naby Ndiaye, El Houcine Bergou, Hajar El Hammouti
- Abstract要約: 収集したデータが時間に敏感な場合に注目し,そのタイムラインを維持することが重要である。
我々の目標は、UAVの軌道を最適に設計することであり、グローバル・エイジ・オブ・アップデート(AoU)のような訪問するIoTデバイスのサブセットを最小化することである。
- 参考スコア(独自算出の注目度): 4.042622147977782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unmanned aerial vehicles (UAVs) are seen as a promising technology to perform
a wide range of tasks in wireless communication networks. In this work, we
consider the deployment of a group of UAVs to collect the data generated by IoT
devices. Specifically, we focus on the case where the collected data is
time-sensitive, and it is critical to maintain its timeliness. Our objective is
to optimally design the UAVs' trajectories and the subsets of visited IoT
devices such as the global Age-of-Updates (AoU) is minimized. To this end, we
formulate the studied problem as a mixed-integer nonlinear programming (MINLP)
under time and quality of service constraints. To efficiently solve the
resulting optimization problem, we investigate the cooperative Multi-Agent
Reinforcement Learning (MARL) framework and propose an RL approach based on the
popular on-policy Reinforcement Learning (RL) algorithm: Policy Proximal
Optimization (PPO). Our approach leverages the centralized training
decentralized execution (CTDE) framework where the UAVs learn their optimal
policies while training a centralized value function. Our simulation results
show that the proposed MAPPO approach reduces the global AoU by at least a
factor of 1/2 compared to conventional off-policy reinforcement learning
approaches.
- Abstract(参考訳): 無人航空機(uavs)は、無線通信ネットワークにおいて幅広いタスクを実行する有望な技術と見なされている。
本研究では,IoTデバイスが生成するデータを収集するために,UAVのグループの配置を検討する。
具体的には、収集したデータが時間に敏感な場合に注目し、そのタイムラインを維持することが重要である。
我々の目標は、UAVの軌道を最適に設計することであり、グローバル・エイジ・オブ・アップデート(AoU)のような訪問するIoTデバイスのサブセットを最小化することである。
この目的のために,サービス制約の時間的および品質を考慮した混合整数非線形プログラミング (MINLP) として検討した問題を定式化する。
得られた最適化問題を効率的に解決するために、協調型マルチエージェント強化学習(MARL)フレームワークを調査し、人気の高いオンライン強化学習(RL)アルゴリズムに基づくRLアプローチを提案する。
当社のアプローチでは,UAVが集中値関数をトレーニングしながら最適なポリシを学習する,集中型トレーニング分散実行(CTDE)フレームワークを活用している。
シミュレーションの結果, 提案手法は, 従来のオフポリシー強化学習手法と比較して, グローバルaouを少なくとも1/2削減することが示された。
関連論文リスト
- Wireless Federated Learning over UAV-enabled Integrated Sensing and Communication [2.8203310972866382]
本稿では,無人航空機(UAV)を利用した統合型統合学習(FL)における新しい遅延最適化問題について検討する。
ベンチマーク方式と比較して,システム遅延を最大68.54%削減し,高品質な近似解を求めるため,単純かつ効率的な反復アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-01T14:25:24Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - Multi-Agent Reinforcement Learning for Offloading Cellular Communications with Cooperating UAVs [21.195346908715972]
無人航空機は、地上のBSからデータトラフィックをオフロードする代替手段を提供する。
本稿では,地上BSからデータオフロードを行うために,複数のUAVを効率的に利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T12:36:08Z) - Personalized Federated Deep Reinforcement Learning-based Trajectory
Optimization for Multi-UAV Assisted Edge Computing [22.09756306579992]
UAVはエッジコンピューティング環境でインテリジェントなサーバとして機能し、通信システムのスループットを最大化するために飛行軌道を最適化する。
深部強化学習(DRL)に基づく軌道最適化アルゴリズムは、複雑な地形特徴と不十分な訓練データにより、訓練性能が低下する可能性がある。
本研究は,マルチUAV軌道最適化のための新しい手法,すなわちパーソナライズされた深部強化学習(PF-DRL)を提案する。
論文 参考訳(メタデータ) (2023-09-05T12:54:40Z) - Multi-Objective Optimization for UAV Swarm-Assisted IoT with Virtual
Antenna Arrays [55.736718475856726]
無人航空機(UAV)ネットワークはIoT(Internet-of-Things)を支援するための有望な技術である
既存のUAV支援データ収集および普及スキームでは、UAVはIoTとアクセスポイントの間を頻繁に飛行する必要がある。
協調ビームフォーミングをIoTとUAVに同時に導入し、エネルギーと時間効率のデータ収集と普及を実現した。
論文 参考訳(メタデータ) (2023-08-03T02:49:50Z) - AI-based Radio and Computing Resource Allocation and Path Planning in
NOMA NTNs: AoI Minimization under CSI Uncertainty [23.29963717212139]
高高度プラットフォーム(HAP)と無人航空機(UAV)からなる階層型空中コンピューティングフレームワークを開発する。
タスクスケジューリングは平均AoIを大幅に削減する。
電力割り当ては全ユーザに対して全送信電力を使用する場合と比較して平均AoIに限界効果があることが示されている。
論文 参考訳(メタデータ) (2023-05-01T11:52:15Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT
Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement
Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。
本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。
提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文 参考訳(メタデータ) (2021-12-20T15:45:28Z) - 3D UAV Trajectory and Data Collection Optimisation via Deep
Reinforcement Learning [75.78929539923749]
無人航空機(UAV)は現在、無線通信におけるネットワーク性能とカバレッジを高めるために配備され始めている。
UAV支援モノのインターネット(IoT)のための最適な資源配分方式を得ることは困難である
本稿では,UAVの最も短い飛行経路に依存しつつ,IoTデバイスから収集したデータ量を最大化しながら,新しいUAV支援IoTシステムを設計する。
論文 参考訳(メタデータ) (2021-06-06T14:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。