論文の概要: Safe Deep Reinforcement Learning for Multi-Agent Systems with Continuous
Action Spaces
- arxiv url: http://arxiv.org/abs/2108.03952v1
- Date: Mon, 9 Aug 2021 11:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:02:46.512344
- Title: Safe Deep Reinforcement Learning for Multi-Agent Systems with Continuous
Action Spaces
- Title(参考訳): 連続動作空間を有するマルチエージェントシステムの安全深層強化学習
- Authors: Ziyad Sheebaelhamd, Konstantinos Zisis, Athina Nisioti, Dimitris
Gkouletsos, Dario Pavllo, Jonas Kohler
- Abstract要約: 深層政策ネットワークに安全層を追加することにより,多エージェントの深層決定性政策勾配(MADDPG)フレームワークを強化する。
厳密なペナルティ関数の理論による結果は、制約満足度を保証するために用いられる。
我々は,ソフトな定式化が制約違反の劇的な減少を実現することを実証的に見出した。
- 参考スコア(独自算出の注目度): 5.553946791700077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent control problems constitute an interesting area of application
for deep reinforcement learning models with continuous action spaces. Such
real-world applications, however, typically come with critical safety
constraints that must not be violated. In order to ensure safety, we enhance
the well-known multi-agent deep deterministic policy gradient (MADDPG)
framework by adding a safety layer to the deep policy network. %which
automatically corrects invalid actions. In particular, we extend the idea of
linearizing the single-step transition dynamics, as was done for single-agent
systems in Safe DDPG (Dalal et al., 2018), to multi-agent settings. We
additionally propose to circumvent infeasibility problems in the action
correction step using soft constraints (Kerrigan & Maciejowski, 2000). Results
from the theory of exact penalty functions can be used to guarantee constraint
satisfaction of the soft constraints under mild assumptions. We empirically
find that the soft formulation achieves a dramatic decrease in constraint
violations, making safety available even during the learning procedure.
- Abstract(参考訳): マルチエージェント制御問題は、連続的な行動空間を持つ深層強化学習モデルに対する興味深い応用分野である。
しかし、そのような現実世界のアプリケーションは、通常、違反してはいけない重要な安全上の制約が伴う。
安全性を確保するため、我々は、深層政策ネットワークに安全層を追加することで、よく知られたマルチエージェントの深層決定政策勾配(MADDPG)フレームワークを強化する。
%で,無効行為を自動的に修正する。
特に,安全なddpg(dalal et al., 2018)の単一エージェントシステムに対して行われたように,単一ステップ遷移ダイナミクスをマルチエージェント設定にリニア化するという考え方を拡張した。
また,ソフト制約(Kerrigan & Maciejowski, 2000)を用いて,動作補正ステップの不実現性問題を回避することを提案する。
厳密なペナルティ関数の理論による結果は、穏やかな仮定の下でのソフト制約の制約満足度を保証するために用いられる。
ソフトな定式化によって制約違反の劇的な減少が達成され,学習過程においても安全性が確保される。
関連論文リスト
- Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning [26.244121960815907]
本稿では,多目的学習と制約順守の政策最適化を協調するプライマリベースフレームワークを提案する。
提案手法は,複数のRL目標を最適化するために,新しい自然ポリシー勾配演算法を用いる。
また,提案手法は,安全性の高い多目的強化学習タスクにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:42:10Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Leveraging Approximate Model-based Shielding for Probabilistic Safety
Guarantees in Continuous Environments [63.053364805943026]
近似モデルベースの遮蔽フレームワークを連続的な設定に拡張する。
特に、テストベッドとしてSafety Gymを使用し、一般的な制約付きRLアルゴリズムとABBSのより直接的な比較を可能にします。
論文 参考訳(メタデータ) (2024-02-01T17:55:08Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Deep Constrained Q-learning [15.582910645906145]
多くの実世界の応用において、強化学習エージェントは特定の規則に従うか制約を満たすことなく、複数の目的を最適化する必要がある。
制約付きMDPの最適Q関数とそれに対応する安全ポリシーを学習するために,Q更新時の行動空間を直接制限する新しい非政治的強化学習フレームワークであるConstrained Q-learningを提案する。
論文 参考訳(メタデータ) (2020-03-20T17:26:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。