論文の概要: Multi-Agent Reinforcement Learning for Unmanned Aerial Vehicle
Coordination by Multi-Critic Policy Gradient Optimization
- arxiv url: http://arxiv.org/abs/2012.15472v1
- Date: Thu, 31 Dec 2020 07:00:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:22:45.380068
- Title: Multi-Agent Reinforcement Learning for Unmanned Aerial Vehicle
Coordination by Multi-Critic Policy Gradient Optimization
- Title(参考訳): マルチクリティカルポリシー勾配最適化による無人航空機コーディネーションのマルチエージェント強化学習
- Authors: Yoav Alon and Huiyu Zhou
- Abstract要約: 農業、災害管理、捜索および救助活動、商業および軍事用途では、ドローンの艦隊を適用する利点は、自律的に協力する能力に由来します。
本稿では,政策ネットワークの安定的な更新と報酬信号開発における類似性を実現するマルチエージェント強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 16.6182621419268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent technological progress in the development of Unmanned Aerial Vehicles
(UAVs) together with decreasing acquisition costs make the application of drone
fleets attractive for a wide variety of tasks. In agriculture, disaster
management, search and rescue operations, commercial and military applications,
the advantage of applying a fleet of drones originates from their ability to
cooperate autonomously. Multi-Agent Reinforcement Learning approaches that aim
to optimize a neural network based control policy, such as the best performing
actor-critic policy gradient algorithms, struggle to effectively back-propagate
errors of distinct rewards signal sources and tend to favor lucrative signals
while neglecting coordination and exploitation of previously learned
similarities. We propose a Multi-Critic Policy Optimization architecture with
multiple value estimating networks and a novel advantage function that
optimizes a stochastic actor policy network to achieve optimal coordination of
agents. Consequently, we apply the algorithm to several tasks that require the
collaboration of multiple drones in a physics-based reinforcement learning
environment. Our approach achieves a stable policy network update and
similarity in reward signal development for an increasing number of agents. The
resulting policy achieves optimal coordination and compliance with constraints
such as collision avoidance.
- Abstract(参考訳): 無人航空機(UAV)の開発における最近の技術進歩と買収コストの低減により、ドローンの運用は様々なタスクで魅力的なものとなっている。
農業、災害管理、捜索救助活動、商業および軍事用途において、ドローンの艦隊を適用する利点は、自律的に協力する能力から来ている。
ニューラルネットワークに基づく制御ポリシを最適化することを目的としたマルチエージェント強化学習アプローチ – アクター・クリティカルなポリシ勾配アルゴリズムなど – では,異なる報酬源のエラーを効果的にバックプロパゲートすることに苦労し,これまで学んだ類似性のコーディネーションや活用を無視したまま,有益なシグナルを優先する傾向にある。
エージェントの最適調整を実現するために,複数値推定ネットワークと確率的アクターポリシーネットワークを最適化する新たな利点関数を備えたマルチクリティカルポリシー最適化アーキテクチャを提案する。
その結果,物理ベースの強化学習環境において,複数のドローンの協調を必要とするタスクにアルゴリズムを適用した。
本手法は,エージェント数の増加に対して,安定したポリシーネットワーク更新と報酬信号開発における類似性を実現する。
結果として得られたポリシーは衝突回避のような制約に最適な調整とコンプライアンスを達成する。
関連論文リスト
- Joint User Association, Interference Cancellation and Power Control for
Multi-IRS Assisted UAV Communications [80.35959154762381]
インテリジェント反射面(IRS)支援無人航空機(UAV)通信は、地上基地局の負荷を低コストで軽減することが期待されている。
既存の研究は主に、複数のIRSではなく単一のIRSの配置とリソース割り当てに焦点を当てている。
我々は,共同IRSユーザアソシエーションのための新しい最適化アルゴリズム,UAVの軌道最適化,逐次干渉キャンセル(SIC)復号命令スケジューリング,電力割り当てを提案する。
論文 参考訳(メタデータ) (2023-12-08T01:57:10Z) - Muti-Agent Proximal Policy Optimization For Data Freshness in
UAV-assisted Networks [4.042622147977782]
収集したデータが時間に敏感な場合に注目し,そのタイムラインを維持することが重要である。
我々の目標は、UAVの軌道を最適に設計することであり、グローバル・エイジ・オブ・アップデート(AoU)のような訪問するIoTデバイスのサブセットを最小化することである。
論文 参考訳(メタデータ) (2023-03-15T15:03:09Z) - Efficient Domain Coverage for Vehicles with Second-Order Dynamics via
Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。
提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文 参考訳(メタデータ) (2022-11-11T01:59:12Z) - Hierarchical Reinforcement Learning with Opponent Modeling for
Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。
従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。
効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-25T19:09:29Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT
Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement
Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。
本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。
提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文 参考訳(メタデータ) (2021-12-20T15:45:28Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Scalable, Decentralized Multi-Agent Reinforcement Learning Methods
Inspired by Stigmergy and Ant Colonies [0.0]
分散型マルチエージェント学習と計画に対する新しいアプローチを検討する。
特に、この方法はアリコロニーの凝集、協調、行動に触発されている。
このアプローチは、単一エージェントRLと、マルチエージェントパス計画と環境修正のためのアリコロニーに触発された分散型のスティグメロジカルアルゴリズムを組み合わせたものである。
論文 参考訳(メタデータ) (2021-05-08T01:04:51Z) - Variationally and Intrinsically motivated reinforcement learning for
decentralized traffic signal control [31.33071476673294]
交通信号コーディネート制御のための新しいMetaVRS法を提案する。
環境報酬に本質的な報酬を適用することで、MetaVRSはエージェント対エージェントの相互作用を賢明に捉えることができる。
VAEが生み出す潜伏変数は、探査と搾取のトレードオフを自動的に行うためのポリシーに組み込まれる。
論文 参考訳(メタデータ) (2021-01-04T03:06:08Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。