Fugu-MT 論文翻訳(概要): Imitation Learning based Alternative Multi-Agent Proximal Policy Optimization for Well-Formed Swarm-Oriented Pursuit Avoidance

論文の概要: Imitation Learning based Alternative Multi-Agent Proximal Policy Optimization for Well-Formed Swarm-Oriented Pursuit Avoidance

arxiv url: http://arxiv.org/abs/2311.02912v1
Date: Mon, 6 Nov 2023 06:58:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 15:14:28.469537
Title: Imitation Learning based Alternative Multi-Agent Proximal Policy Optimization for Well-Formed Swarm-Oriented Pursuit Avoidance
Title（参考訳）: 模擬学習に基づくマルチエージェント・ポリシー最適化によるスマートスワム指向パースーツ回避
Authors: Sizhao Li, Yuming Xiang, Rongpeng Li, Zhifeng Zhao, Honggang Zhang
Abstract要約: 本稿では,分散学習に基づく代替的マルチエージェント・プロキシ・ポリシー最適化(IA-MAPPO)アルゴリズムを提案する。擬似学習を利用して生成コントローラを分散化し,通信オーバーヘッドを低減し,スケーラビリティを向上させる。シミュレーションの結果,IA-MAPPOの有効性が検証され,広範囲なアブレーション実験により,通信オーバーヘッドが著しく減少する集中型解に匹敵する性能が示された。
参考スコア（独自算出の注目度）: 15.498559530889839
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-Robot System (MRS) has garnered widespread research interest and fostered tremendous interesting applications, especially in cooperative control fields. Yet little light has been shed on the compound ability of formation, monitoring and defence in decentralized large-scale MRS for pursuit avoidance, which puts stringent requirements on the capability of coordination and adaptability. In this paper, we put forward a decentralized Imitation learning based Alternative Multi-Agent Proximal Policy Optimization (IA-MAPPO) algorithm to provide a flexible and communication-economic solution to execute the pursuit avoidance task in well-formed swarm. In particular, a policy-distillation based MAPPO executor is firstly devised to capably accomplish and swiftly switch between multiple formations in a centralized manner. Furthermore, we utilize imitation learning to decentralize the formation controller, so as to reduce the communication overheads and enhance the scalability. Afterwards, alternative training is leveraged to compensate the performance loss incurred by decentralization. The simulation results validate the effectiveness of IA-MAPPO and extensive ablation experiments further show the performance comparable to a centralized solution with significant decrease in communication overheads.
Abstract（参考訳）: マルチロボットシステム(MRS)は幅広い研究の関心を集め、特に協調制御分野において非常に興味深い応用を育ててきた。しかし、追跡回避のための分散型大規模MSSの形成、監視、防衛の複合能力にはほとんど光が当たっていないため、調整能力と適応性に厳しい要件が課せられる。本稿では,マルチエージェント・近位政策最適化 (ia-mappo) アルゴリズムを用いた分散模倣学習を行い,スワーミングで追従回避タスクを実行するためのフレキシブルで通信経済的な解法を提案する。特に、政策蒸留に基づくMAPPOエグゼキュータは、まず、複数の形態を集中的に容易に切り替えるように設計されている。さらに,コミュニケーションオーバーヘッドを低減し,拡張性を向上させるために,生成コントローラの分散化に模倣学習を利用する。その後、分散化によって生じるパフォーマンス損失を補うために、代替トレーニングが活用される。シミュレーションの結果,IA-MAPPOの有効性が検証され,広範囲なアブレーション実験により,通信オーバーヘッドが著しく減少する集中型解に匹敵する性能を示した。

関連論文リスト

Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-14T06:17:33Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
Multi-Agent Reinforcement Learning-Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment [12.122881147337505]
マルチエージェント強化学習に基づく分散実行手法を用いた新しい集中型学習法を提案する。このアプローチでは、エージェントは集中型プランナーとのみ通信し、オンラインで分散的な決定を行う。訓練効率を高めるため,多段階強化学習において多段階値収束を行う。
論文参考訳（メタデータ） (2023-10-25T14:21:22Z)
Decentralized Adaptive Formation via Consensus-Oriented Multi-Agent Communication [9.216867817261493]
本稿では,Consensus-based Decentralized Adaptive Formation (Cons-DecAF) フレームワークを提案する。具体的には、コンセンサス指向のマルチエージェント通信(ConsMAC)という新しいマルチエージェント強化学習手法を開発する。エージェントの特定の位置を事前に割り当てる代わりに、Hausdorff 距離による変位に基づく生成を用いて、生成効率を著しく向上する。
論文参考訳（メタデータ） (2023-07-23T10:41:17Z)
Attacks on Robust Distributed Learning Schemes via Sensitivity Curve Maximization [37.464005524259356]
曲線の感度(SCM)に基づく新たな攻撃法を提案する。我々は, 従来の頑健なアグリゲーションスキームを, 小さいが効果的な摂動を注入することで破壊できることを実証した。
論文参考訳（メタデータ） (2023-04-27T08:41:57Z)
Muti-Agent Proximal Policy Optimization For Data Freshness in UAV-assisted Networks [4.042622147977782]
収集したデータが時間に敏感な場合に注目し,そのタイムラインを維持することが重要である。我々の目標は、UAVの軌道を最適に設計することであり、グローバル・エイジ・オブ・アップデート(AoU)のような訪問するIoTデバイスのサブセットを最小化することである。
論文参考訳（メタデータ） (2023-03-15T15:03:09Z)
Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文参考訳（メタデータ） (2022-05-25T08:35:00Z)
Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。コア最適化問題の実用的なパラメトリゼーションを提供する。
論文参考訳（メタデータ） (2021-07-08T18:01:02Z)
Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文参考訳（メタデータ） (2021-06-30T16:49:07Z)
Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文参考訳（メタデータ） (2020-08-24T13:23:02Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)
Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文参考訳（メタデータ） (2020-03-19T13:10:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。