論文の概要: Safe Deep Reinforcement Learning for Multi-Agent Systems with Continuous
Action Spaces
- arxiv url: http://arxiv.org/abs/2108.03952v2
- Date: Wed, 11 Aug 2021 09:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 10:27:34.695630
- Title: Safe Deep Reinforcement Learning for Multi-Agent Systems with Continuous
Action Spaces
- Title(参考訳): 連続動作空間を有するマルチエージェントシステムの安全深層強化学習
- Authors: Ziyad Sheebaelhamd, Konstantinos Zisis, Athina Nisioti, Dimitris
Gkouletsos, Dario Pavllo, Jonas Kohler
- Abstract要約: 深層政策ネットワークに安全層を追加することにより,多エージェントの深層決定性政策勾配(MADDPG)フレームワークを強化する。
そこで本研究では,ソフト制約を用いた動作補正ステップにおいて,実現不可能な問題を回避することを提案する。
- 参考スコア(独自算出の注目度): 5.553946791700077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent control problems constitute an interesting area of application
for deep reinforcement learning models with continuous action spaces. Such
real-world applications, however, typically come with critical safety
constraints that must not be violated. In order to ensure safety, we enhance
the well-known multi-agent deep deterministic policy gradient (MADDPG)
framework by adding a safety layer to the deep policy network. In particular,
we extend the idea of linearizing the single-step transition dynamics, as was
done for single-agent systems in Safe DDPG (Dalal et al., 2018), to multi-agent
settings. We additionally propose to circumvent infeasibility problems in the
action correction step using soft constraints (Kerrigan & Maciejowski, 2000).
Results from the theory of exact penalty functions can be used to guarantee
constraint satisfaction of the soft constraints under mild assumptions. We
empirically find that the soft formulation achieves a dramatic decrease in
constraint violations, making safety available even during the learning
procedure.
- Abstract(参考訳): マルチエージェント制御問題は、連続的な行動空間を持つ深層強化学習モデルに対する興味深い応用分野である。
しかし、そのような現実世界のアプリケーションは、通常、違反してはいけない重要な安全上の制約が伴う。
安全性を確保するため、我々は、深層政策ネットワークに安全層を追加することで、よく知られたマルチエージェントの深層決定政策勾配(MADDPG)フレームワークを強化する。
特に,安全なddpg(dalal et al., 2018)の単一エージェントシステムに対して行われたように,単一ステップ遷移ダイナミクスをマルチエージェント設定にリニア化するという考え方を拡張した。
また,ソフト制約(Kerrigan & Maciejowski, 2000)を用いて,動作補正ステップの不実現性問題を回避することを提案する。
厳密なペナルティ関数の理論による結果は、穏やかな仮定の下でのソフト制約の制約満足度を保証するために用いられる。
ソフトな定式化によって制約違反の劇的な減少が達成され,学習過程においても安全性が確保される。
関連論文リスト
- Multi-Constraint Safe RL with Objective Suppression for Safety-Critical
Applications [80.99495309420959]
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
我々は、自律運転領域を含む2つのマルチ制約安全領域において、客観抑制をベンチマークする。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Leveraging Approximate Model-based Shielding for Probabilistic Safety
Guarantees in Continuous Environments [63.053364805943026]
近似モデルベースの遮蔽フレームワークを連続的な設定に拡張する。
特に、テストベッドとしてSafety Gymを使用し、一般的な制約付きRLアルゴリズムとABBSのより直接的な比較を可能にします。
論文 参考訳(メタデータ) (2024-02-01T17:55:08Z) - Handling Long and Richly Constrained Tasks through Constrained
Hierarchical Reinforcement Learning [20.280636126917614]
目標の安全性 強化学習(RL)の設定は通常、軌道上の制約によって処理される。
本稿では,上位レベルの制約付き検索エージェントと下位レベルの目標条件付きRLエージェントを組み合わせた(安全)階層型強化学習(CoSHRL)機構を提案する。
CoSHRLの大きな利点は、コスト値分布の制約を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。
論文 参考訳(メタデータ) (2023-02-21T12:57:12Z) - Safety-Constrained Policy Transfer with Successor Features [19.754549649781644]
本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。
我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。
シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-10T06:06:36Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。