Fugu-MT 論文翻訳(概要): Multi-Agent Reinforcement Learning for Unmanned Aerial Vehicle Coordination by Multi-Critic Policy Gradient Optimization

論文の概要: Multi-Agent Reinforcement Learning for Unmanned Aerial Vehicle Coordination by Multi-Critic Policy Gradient Optimization

arxiv url: http://arxiv.org/abs/2012.15472v1
Date: Thu, 31 Dec 2020 07:00:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-17 17:22:45.380068
Title: Multi-Agent Reinforcement Learning for Unmanned Aerial Vehicle Coordination by Multi-Critic Policy Gradient Optimization
Title（参考訳）: マルチクリティカルポリシー勾配最適化による無人航空機コーディネーションのマルチエージェント強化学習
Authors: Yoav Alon and Huiyu Zhou
Abstract要約: 農業、災害管理、捜索および救助活動、商業および軍事用途では、ドローンの艦隊を適用する利点は、自律的に協力する能力に由来します。本稿では,政策ネットワークの安定的な更新と報酬信号開発における類似性を実現するマルチエージェント強化学習手法を提案する。
参考スコア（独自算出の注目度）: 16.6182621419268
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent technological progress in the development of Unmanned Aerial Vehicles (UAVs) together with decreasing acquisition costs make the application of drone fleets attractive for a wide variety of tasks. In agriculture, disaster management, search and rescue operations, commercial and military applications, the advantage of applying a fleet of drones originates from their ability to cooperate autonomously. Multi-Agent Reinforcement Learning approaches that aim to optimize a neural network based control policy, such as the best performing actor-critic policy gradient algorithms, struggle to effectively back-propagate errors of distinct rewards signal sources and tend to favor lucrative signals while neglecting coordination and exploitation of previously learned similarities. We propose a Multi-Critic Policy Optimization architecture with multiple value estimating networks and a novel advantage function that optimizes a stochastic actor policy network to achieve optimal coordination of agents. Consequently, we apply the algorithm to several tasks that require the collaboration of multiple drones in a physics-based reinforcement learning environment. Our approach achieves a stable policy network update and similarity in reward signal development for an increasing number of agents. The resulting policy achieves optimal coordination and compliance with constraints such as collision avoidance.
Abstract（参考訳）: 無人航空機(UAV)の開発における最近の技術進歩と買収コストの低減により、ドローンの運用は様々なタスクで魅力的なものとなっている。農業、災害管理、捜索救助活動、商業および軍事用途において、ドローンの艦隊を適用する利点は、自律的に協力する能力から来ている。ニューラルネットワークに基づく制御ポリシを最適化することを目的としたマルチエージェント強化学習アプローチ – アクター・クリティカルなポリシ勾配アルゴリズムなど – では,異なる報酬源のエラーを効果的にバックプロパゲートすることに苦労し,これまで学んだ類似性のコーディネーションや活用を無視したまま,有益なシグナルを優先する傾向にある。エージェントの最適調整を実現するために,複数値推定ネットワークと確率的アクターポリシーネットワークを最適化する新たな利点関数を備えたマルチクリティカルポリシー最適化アーキテクチャを提案する。その結果,物理ベースの強化学習環境において,複数のドローンの協調を必要とするタスクにアルゴリズムを適用した。本手法は,エージェント数の増加に対して,安定したポリシーネットワーク更新と報酬信号開発における類似性を実現する。結果として得られたポリシーは衝突回避のような制約に最適な調整とコンプライアンスを達成する。

関連論文リスト

LLM Meets the Sky: Heuristic Multi-Agent Reinforcement Learning for Secure Heterogeneous UAV Networks [57.27815890269697]
この研究は、エネルギー制約下での不均一なUAVネットワーク(HetUAVN)における機密率の最大化に焦点を当てている。本稿では,Large Language Model (LLM) を用いたマルチエージェント学習手法を提案する。その結果,本手法は機密性やエネルギー効率において,既存のベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-07-23T04:22:57Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-14T06:17:33Z)
OPTIMA: Optimized Policy for Intelligent Multi-Agent Systems Enables Coordination-Aware Autonomous Vehicles [9.41740133451895]
本研究は,協調自動運転タスクのための分散強化学習フレームワークOPTIMAを紹介する。我々のゴールは、非常に複雑で混み合ったシナリオにおいて、CAVの汎用性と性能を改善することです。
論文参考訳（メタデータ） (2024-10-09T03:28:45Z)
Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。 STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文参考訳（メタデータ） (2024-06-19T07:17:04Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
UAV-enabled Collaborative Beamforming via Multi-Agent Deep Reinforcement Learning [79.16150966434299]
本稿では,UAVを用いた協調ビームフォーミング多目的最適化問題 (UCBMOP) を定式化し,UAVの伝送速度を最大化し,全UAVのエネルギー消費を最小化する。ヘテロジニアス・エージェント・信頼領域ポリシー最適化(HATRPO)を基本フレームワークとし,改良されたHATRPOアルゴリズム,すなわちHATRPO-UCBを提案する。
論文参考訳（メタデータ） (2024-04-11T03:19:22Z)
Joint User Association, Interference Cancellation and Power Control for Multi-IRS Assisted UAV Communications [80.35959154762381]
インテリジェント反射面(IRS)支援無人航空機(UAV)通信は、地上基地局の負荷を低コストで軽減することが期待されている。既存の研究は主に、複数のIRSではなく単一のIRSの配置とリソース割り当てに焦点を当てている。我々は,共同IRSユーザアソシエーションのための新しい最適化アルゴリズム,UAVの軌道最適化,逐次干渉キャンセル(SIC)復号命令スケジューリング,電力割り当てを提案する。
論文参考訳（メタデータ） (2023-12-08T01:57:10Z)
Muti-Agent Proximal Policy Optimization For Data Freshness in UAV-assisted Networks [4.042622147977782]
収集したデータが時間に敏感な場合に注目し,そのタイムラインを維持することが重要である。我々の目標は、UAVの軌道を最適に設計することであり、グローバル・エイジ・オブ・アップデート(AoU)のような訪問するIoTデバイスのサブセットを最小化することである。
論文参考訳（メタデータ） (2023-03-15T15:03:09Z)
Efficient Domain Coverage for Vehicles with Second-Order Dynamics via Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文参考訳（メタデータ） (2022-11-11T01:59:12Z)
Hierarchical Reinforcement Learning with Opponent Modeling for Distributed Multi-agent Cooperation [13.670618752160594]
深層強化学習(DRL)はエージェントと環境の相互作用を通じて多エージェント協調に有望なアプローチを提供する。従来のDRLソリューションは、ポリシー探索中に連続的なアクション空間を持つ複数のエージェントの高次元に悩まされる。効率的な政策探索のための高レベル意思決定と低レベル個別制御を用いた階層型強化学習手法を提案する。
論文参考訳（メタデータ） (2022-06-25T19:09:29Z)
Optimization for Master-UAV-powered Auxiliary-Aerial-IRS-assisted IoT Networks: An Option-based Multi-agent Hierarchical Deep Reinforcement Learning Approach [56.84948632954274]
本稿では,無人航空機(MUAV)搭載のIoT(Internet of Things)ネットワークについて検討する。本稿では、インテリジェント反射面(IRS)を備えた充電可能な補助UAV(AUAV)を用いて、MUAVからの通信信号を強化することを提案する。提案モデルでは,IoTネットワークの蓄積スループットを最大化するために,これらのエネルギー制限されたUAVの最適協調戦略について検討する。
論文参考訳（メタデータ） (2021-12-20T15:45:28Z)
Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文参考訳（メタデータ） (2021-11-23T18:24:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。