論文の概要: Multi-Agent Reinforcement Learning for Unmanned Aerial Vehicle
Coordination by Multi-Critic Policy Gradient Optimization
- arxiv url: http://arxiv.org/abs/2012.15472v1
- Date: Thu, 31 Dec 2020 07:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:22:45.380068
- Title: Multi-Agent Reinforcement Learning for Unmanned Aerial Vehicle
Coordination by Multi-Critic Policy Gradient Optimization
- Title(参考訳): マルチクリティカルポリシー勾配最適化による無人航空機コーディネーションのマルチエージェント強化学習
- Authors: Yoav Alon and Huiyu Zhou
- Abstract要約: 農業、災害管理、捜索および救助活動、商業および軍事用途では、ドローンの艦隊を適用する利点は、自律的に協力する能力に由来します。
本稿では,政策ネットワークの安定的な更新と報酬信号開発における類似性を実現するマルチエージェント強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 16.6182621419268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent technological progress in the development of Unmanned Aerial Vehicles
(UAVs) together with decreasing acquisition costs make the application of drone
fleets attractive for a wide variety of tasks. In agriculture, disaster
management, search and rescue operations, commercial and military applications,
the advantage of applying a fleet of drones originates from their ability to
cooperate autonomously. Multi-Agent Reinforcement Learning approaches that aim
to optimize a neural network based control policy, such as the best performing
actor-critic policy gradient algorithms, struggle to effectively back-propagate
errors of distinct rewards signal sources and tend to favor lucrative signals
while neglecting coordination and exploitation of previously learned
similarities. We propose a Multi-Critic Policy Optimization architecture with
multiple value estimating networks and a novel advantage function that
optimizes a stochastic actor policy network to achieve optimal coordination of
agents. Consequently, we apply the algorithm to several tasks that require the
collaboration of multiple drones in a physics-based reinforcement learning
environment. Our approach achieves a stable policy network update and
similarity in reward signal development for an increasing number of agents. The
resulting policy achieves optimal coordination and compliance with constraints
such as collision avoidance.
- Abstract(参考訳): 無人航空機(UAV)の開発における最近の技術進歩と買収コストの低減により、ドローンの運用は様々なタスクで魅力的なものとなっている。
農業、災害管理、捜索救助活動、商業および軍事用途において、ドローンの艦隊を適用する利点は、自律的に協力する能力から来ている。
ニューラルネットワークに基づく制御ポリシを最適化することを目的としたマルチエージェント強化学習アプローチ – アクター・クリティカルなポリシ勾配アルゴリズムなど – では,異なる報酬源のエラーを効果的にバックプロパゲートすることに苦労し,これまで学んだ類似性のコーディネーションや活用を無視したまま,有益なシグナルを優先する傾向にある。
エージェントの最適調整を実現するために,複数値推定ネットワークと確率的アクターポリシーネットワークを最適化する新たな利点関数を備えたマルチクリティカルポリシー最適化アーキテクチャを提案する。
その結果,物理ベースの強化学習環境において,複数のドローンの協調を必要とするタスクにアルゴリズムを適用した。
本手法は,エージェント数の増加に対して,安定したポリシーネットワーク更新と報酬信号開発における類似性を実現する。
結果として得られたポリシーは衝突回避のような制約に最適な調整とコンプライアンスを達成する。
関連論文リスト
- OPTIMA: Optimized Policy for Intelligent Multi-Agent Systems Enables Coordination-Aware Autonomous Vehicles [9.41740133451895]
本研究は,協調自動運転タスクのための分散強化学習フレームワークOPTIMAを紹介する。
我々のゴールは、非常に複雑で混み合ったシナリオにおいて、CAVの汎用性と性能を改善することです。
論文 参考訳(メタデータ) (2024-10-09T03:28:45Z) - Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。
ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文 参考訳(メタデータ) (2024-04-11T03:19:22Z) - Joint User Association, Interference Cancellation and Power Control for
Multi-IRS Assisted UAV Communications [80.35959154762381]
インテリジェント反射面(IRS)支援無人航空機(UAV)通信は、地上基地局の負荷を低コストで軽減することが期待されている。
既存の研究は主に、複数のIRSではなく単一のIRSの配置とリソース割り当てに焦点を当てている。
我々は,共同IRSユーザアソシエーションのための新しい最適化アルゴリズム,UAVの軌道最適化,逐次干渉キャンセル(SIC)復号命令スケジューリング,電力割り当てを提案する。
論文 参考訳(メタデータ) (2023-12-08T01:57:10Z) - Muti-Agent Proximal Policy Optimization For Data Freshness in
UAV-assisted Networks [4.042622147977782]
収集したデータが時間に敏感な場合に注目し,そのタイムラインを維持することが重要である。
我々の目標は、UAVの軌道を最適に設計することであり、グローバル・エイジ・オブ・アップデート(AoU)のような訪問するIoTデバイスのサブセットを最小化することである。
論文 参考訳(メタデータ) (2023-03-15T15:03:09Z) - Efficient Domain Coverage for Vehicles with Second-Order Dynamics via
Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。
提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文 参考訳(メタデータ) (2022-11-11T01:59:12Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT
Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement
Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。
本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。
提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文 参考訳(メタデータ) (2021-12-20T15:45:28Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。