論文の概要: Discrete GCBF Proximal Policy Optimization for Multi-agent Safe Optimal Control
- arxiv url: http://arxiv.org/abs/2502.03640v1
- Date: Wed, 05 Feb 2025 21:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:55:10.958083
- Title: Discrete GCBF Proximal Policy Optimization for Multi-agent Safe Optimal Control
- Title(参考訳): 離散GCBF最適化によるマルチエージェント安全な最適制御
- Authors: Songyuan Zhang, Oswin So, Mitchell Black, Chuchu Fan,
- Abstract要約: 本稿では,周辺環境の変化や入力制約を処理する離散グラフCBFと,マルチエージェントシステムを対象とした分散型高性能安全ポリシーの両方を学習するフレームワークを提案する。
3つのシミュレーションエンジンにまたがるマルチエージェントタスクのスイート上で,我々の主張を実証的に検証する。
- 参考スコア(独自算出の注目度): 12.887022770142892
- License:
- Abstract: Control policies that can achieve high task performance and satisfy safety constraints are desirable for any system, including multi-agent systems (MAS). One promising technique for ensuring the safety of MAS is distributed control barrier functions (CBF). However, it is difficult to design distributed CBF-based policies for MAS that can tackle unknown discrete-time dynamics, partial observability, changing neighborhoods, and input constraints, especially when a distributed high-performance nominal policy that can achieve the task is unavailable. To tackle these challenges, we propose DGPPO, a new framework that simultaneously learns both a discrete graph CBF which handles neighborhood changes and input constraints, and a distributed high-performance safe policy for MAS with unknown discrete-time dynamics. We empirically validate our claims on a suite of multi-agent tasks spanning three different simulation engines. The results suggest that, compared with existing methods, our DGPPO framework obtains policies that achieve high task performance (matching baselines that ignore the safety constraints), and high safety rates (matching the most conservative baselines), with a constant set of hyperparameters across all environments.
- Abstract(参考訳): マルチエージェントシステム(MAS)を含むあらゆるシステムにおいて、高いタスク性能を達成し、安全性の制約を満たす制御ポリシーが望ましい。
MASの安全性を確保するための有望な技術は、分散制御バリア機能(CBF)である。
しかし、特にタスクを達成できない分散高性能な名目ポリシーが利用できない場合には、未知の離散時間力学、部分可観測性、近傍の変化、入力制約に対処できるMASのための分散CBFベースのポリシーを設計することは困難である。
これらの課題に対処するため、DGPPOは、近傍の変化や入力制約を処理する離散グラフCBFと、未知の離散時間ダイナミクスを持つMASのための分散高性能安全なポリシーの両方を同時に学習する新しいフレームワークである。
3つのシミュレーションエンジンにまたがるマルチエージェントタスクのスイート上で,我々の主張を実証的に検証する。
その結果,DGPPOフレームワークは,従来の手法と比較して,高いタスク性能(安全制約を無視したベースラインのマッチング)と高い安全率(最も保守的なベースラインのマッチング)を実現するためのポリシーを,すべての環境に一定なハイパーパラメータのセットで得ることが示唆された。
関連論文リスト
- Pareto Control Barrier Function for Inner Safe Set Maximization Under Input Constraints [50.920465513162334]
入力制約下での動的システムの内部安全集合を最大化するPCBFアルゴリズムを提案する。
逆振り子に対するハミルトン・ヤコビの到達性との比較と,12次元四元数系のシミュレーションにより,その有効性を検証する。
その結果,PCBFは既存の手法を一貫して上回り,入力制約下での安全性を確保した。
論文 参考訳(メタデータ) (2024-10-05T18:45:19Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。
我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。
本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:54:38Z) - Conflict-Averse Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning [13.245000585002858]
多くの実世界の応用において、強化学習(RL)エージェントは、複数の目的を考慮し、安全ガイドラインに従うべきである。
制約付き多目的勾配集約アルゴリズム(Constrained Multi-Objective Gradient Aggregator, CoGAMO)を提案する。
論文 参考訳(メタデータ) (2024-03-01T04:57:13Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Multi-Agent Constrained Policy Optimisation [17.772811770726296]
制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。
マルチエージェント制約付き政策最適化 (MACPO) とMAPPO-ラグランジアン (MAPPO-Lagrangian) は、制約付き政策最適化とマルチエージェント信頼領域学習の両方から理論を利用する。
我々は,様々なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。
論文 参考訳(メタデータ) (2021-10-06T14:17:09Z) - Safe Deep Reinforcement Learning for Multi-Agent Systems with Continuous
Action Spaces [5.553946791700077]
深層政策ネットワークに安全層を追加することにより,多エージェントの深層決定性政策勾配(MADDPG)フレームワークを強化する。
そこで本研究では,ソフト制約を用いた動作補正ステップにおいて,実現不可能な問題を回避することを提案する。
論文 参考訳(メタデータ) (2021-08-09T11:33:46Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。