論文の概要: Lyapunov-Based Reinforcement Learning for Decentralized Multi-Agent
Control
- arxiv url: http://arxiv.org/abs/2009.09361v1
- Date: Sun, 20 Sep 2020 06:11:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 13:16:38.248588
- Title: Lyapunov-Based Reinforcement Learning for Decentralized Multi-Agent
Control
- Title(参考訳): 分散マルチエージェント制御のためのlyapunovによる強化学習
- Authors: Qingrui Zhang, Hao Dong, Wei Pan
- Abstract要約: 分散マルチエージェント制御では、システムは未知あるいは非常に不確実なダイナミクスで複雑である。
深層強化学習(DRL)は、システムダイナミクスを知らずに、データからコントローラや政治を学ぶことを約束している。
既存のマルチエージェント強化学習(MARL)アルゴリズムは、マルチエージェントシステムの閉ループ安定性を保証することができない。
安定保証付き分散マルチエージェント制御のための新しいMARLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 3.3788926259119645
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Decentralized multi-agent control has broad applications, ranging from
multi-robot cooperation to distributed sensor networks. In decentralized
multi-agent control, systems are complex with unknown or highly uncertain
dynamics, where traditional model-based control methods can hardly be applied.
Compared with model-based control in control theory, deep reinforcement
learning (DRL) is promising to learn the controller/policy from data without
the knowing system dynamics. However, to directly apply DRL to decentralized
multi-agent control is challenging, as interactions among agents make the
learning environment non-stationary. More importantly, the existing multi-agent
reinforcement learning (MARL) algorithms cannot ensure the closed-loop
stability of a multi-agent system from a control-theoretic perspective, so the
learned control polices are highly possible to generate abnormal or dangerous
behaviors in real applications. Hence, without stability guarantee, the
application of the existing MARL algorithms to real multi-agent systems is of
great concern, e.g., UAVs, robots, and power systems, etc. In this paper, we
aim to propose a new MARL algorithm for decentralized multi-agent control with
a stability guarantee. The new MARL algorithm, termed as a multi-agent
soft-actor critic (MASAC), is proposed under the well-known framework of
"centralized-training-with-decentralized-execution". The closed-loop stability
is guaranteed by the introduction of a stability constraint during the policy
improvement in our MASAC algorithm. The stability constraint is designed based
on Lyapunov's method in control theory. To demonstrate the effectiveness, we
present a multi-agent navigation example to show the efficiency of the proposed
MASAC algorithm.
- Abstract(参考訳): 分散マルチエージェント制御は、マルチロボット協調から分散センサネットワークまで幅広い応用がある。
分散マルチエージェント制御では、システムは未知あるいは非常に不確実なダイナミクスと複雑であり、従来のモデルベースの制御手法はほとんど適用できない。
制御理論におけるモデルベース制御と比較して、深層強化学習(DRL)は、システム力学を知らないデータから制御とポリティクスを学ぶことを約束している。
しかし,エージェント間の相互作用が学習環境を不安定にするため,分散マルチエージェント制御にdrlを直接適用することは困難である。
さらに、既存のマルチエージェント強化学習(MARL)アルゴリズムは、制御理論の観点から、マルチエージェントシステムの閉ループ安定性を保証できないため、学習した制御警察は、実際のアプリケーションで異常または危険な振る舞いを発生させることができる。
したがって、安定性を保証することなく、既存のMARLアルゴリズムを実際のマルチエージェントシステムに適用することは、UAV、ロボット、電力システムなど、大きな関心事である。
本稿では,安定性を保証した分散マルチエージェント制御のための新しいmarlアルゴリズムを提案する。
MARLアルゴリズムはマルチエージェントソフトアクター批評家 (MASAC) と呼ばれ、「分散トレーニングと分散実行」というよく知られた枠組みの下で提案されている。
閉ループ安定性は、MASACアルゴリズムのポリシー改善中に安定性制約を導入することで保証される。
安定性の制約は制御理論におけるリャプノフの方法に基づいている。
本手法の有効性を示すために,提案したMASACアルゴリズムの有効性を示すマルチエージェントナビゲーション例を示す。
関連論文リスト
- Design Optimization of NOMA Aided Multi-STAR-RIS for Indoor Environments: A Convex Approximation Imitated Reinforcement Learning Approach [51.63921041249406]
非直交多重アクセス(Noma)により、複数のユーザが同じ周波数帯域を共有でき、同時に再構成可能なインテリジェントサーフェス(STAR-RIS)を送信および反射することができる。
STAR-RISを屋内に展開することは、干渉緩和、電力消費、リアルタイム設定における課題を提示する。
複数のアクセスポイント(AP)、STAR-RIS、NOMAを利用した新しいネットワークアーキテクチャが屋内通信のために提案されている。
論文 参考訳(メタデータ) (2024-06-19T07:17:04Z) - Decentralized Event-Triggered Online Learning for Safe Consensus of
Multi-Agent Systems with Gaussian Process Regression [3.405252606286664]
本稿では,補助力学によって強化された,学習に基づく分散制御法を提案する。
予測性能を継続的に向上するために、分散イベントトリガー機構を備えたデータ効率の高いオンライン学習戦略を提案する。
提案手法の有効性を示すため,従来の分散制御法とオフライン学習法を対比して比較分析を行った。
論文 参考訳(メタデータ) (2024-02-05T16:41:17Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - A Regret Minimization Approach to Multi-Agent Control [24.20403443262127]
本研究では,動的システムのマルチエージェント制御の問題点について考察する。
分散アルゴリズムに対して,任意の(標準的な)後悔最小化制御法から最小化する。
本研究では,分散手法が障害に対して頑健であり,動的に逆向きに摂動することを示す。
論文 参考訳(メタデータ) (2022-01-28T14:57:59Z) - Relative Distributed Formation and Obstacle Avoidance with Multi-agent
Reinforcement Learning [20.401609420707867]
マルチエージェント強化学習(MARL)に基づく分散生成・障害物回避手法を提案する。
提案手法は, 障害物回避における生成誤差, 生成収束率, オンパー成功率に関して, ベースラインと比較して高い性能を実現する。
論文 参考訳(メタデータ) (2021-11-14T13:02:45Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。