論文の概要: Compositional Shielding and Reinforcement Learning for Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2410.10460v1
- Date: Mon, 14 Oct 2024 12:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 21:24:58.656551
- Title: Compositional Shielding and Reinforcement Learning for Multi-Agent Systems
- Title(参考訳): マルチエージェントシステムのための構成遮蔽と強化学習
- Authors: Asger Horn Brorholt, Kim Guldstrand Larsen, Christian Schilling,
- Abstract要約: 高度な強化学習は、高性能なポリシーを得るための強力なツールとして登場した。
安全を保証するための有望なパラダイムの1つは、安全でない行動からポリシーを守るシールドである。
本研究では,マルチエージェント遮蔽のための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 1.124958340749622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning has emerged as a powerful tool for obtaining high-performance policies. However, the safety of these policies has been a long-standing issue. One promising paradigm to guarantee safety is a shield, which shields a policy from making unsafe actions. However, computing a shield scales exponentially in the number of state variables. This is a particular concern in multi-agent systems with many agents. In this work, we propose a novel approach for multi-agent shielding. We address scalability by computing individual shields for each agent. The challenge is that typical safety specifications are global properties, but the shields of individual agents only ensure local properties. Our key to overcome this challenge is to apply assume-guarantee reasoning. Specifically, we present a sound proof rule that decomposes a (global, complex) safety specification into (local, simple) obligations for the shields of the individual agents. Moreover, we show that applying the shields during reinforcement learning significantly improves the quality of the policies obtained for a given training budget. We demonstrate the effectiveness and scalability of our multi-agent shielding framework in two case studies, reducing the computation time from hours to seconds and achieving fast learning convergence.
- Abstract(参考訳): 高度な強化学習は、高性能なポリシーを得るための強力なツールとして登場した。
しかし、これらの政策の安全性は長年にわたる問題であった。
安全を保証するための有望なパラダイムの1つは、安全でない行動からポリシーを守るシールドである。
しかし、シールドの計算は状態変数の数で指数関数的にスケールする。
これは多くのエージェントを持つマルチエージェントシステムにおいて特に懸念される。
本研究では,マルチエージェント遮蔽のための新しい手法を提案する。
エージェント毎に個々のシールドを演算することでスケーラビリティに対処する。
問題なのは、典型的な安全仕様はグローバルな性質であるが、個々のエージェントのシールドはローカルな性質を保証するだけである。
この課題を克服する鍵は、前提指導者の推論を適用することです。
具体的には、個々のエージェントのシールドに対する(グローバルで複雑な)安全仕様を(局所的で単純な)義務に分解する健全な証明規則を提案する。
さらに,強化学習におけるシールドの適用により,所定のトレーニング予算で得られた方針の質が著しく向上することを示す。
マルチエージェント遮蔽フレームワークの有効性とスケーラビリティを2つのケーススタディで実証し、計算時間を数時間から秒に短縮し、高速な学習収束を実現する。
関連論文リスト
- SafeAligner: Safety Alignment against Jailbreak Attacks via Response Disparity Guidance [48.80398992974831]
SafeAlignerは、ジェイルブレイク攻撃に対する防御を強化するためのデコード段階で実装された方法論である。
安全性を高めるために訓練されたセンチネルモデルと、よりリスクの高い応答を生成するように設計されたイントルーダモデルである。
SafeAlignerは有害なトークンの発生を低減しつつ、有益トークンの可能性を高めることができることを示す。
論文 参考訳(メタデータ) (2024-06-26T07:15:44Z) - Verification-Guided Shielding for Deep Reinforcement Learning [4.418183967223081]
Deep Reinforcement Learning (DRL)は、現実世界の課題を解決するための効果的なアプローチとして登場した。
正式な安全保証を提供することで、この問題に対処する様々な方法が提案されている。
これら2つの手法を統合することでDRLの信頼性ギャップを橋渡しする新しい手法である検証誘導遮蔽法を提案する。
論文 参考訳(メタデータ) (2024-06-10T17:44:59Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Safety Shielding under Delayed Observation [59.86192283565134]
シールドは安全な実行を保証するコンストラクション・バイ・コンストラクション・インストラクタである。
シールドは、将来の干渉が最小化される可能性が最も高い方法で、安全な修正行動を選択するべきである。
現実的な運転シミュレータにおけるシールドの最初の統合について述べる。
論文 参考訳(メタデータ) (2023-07-05T10:06:10Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Model-based Dynamic Shielding for Safe and Efficient Multi-Agent
Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。
MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文 参考訳(メタデータ) (2023-04-13T06:08:10Z) - Online Shielding for Reinforcement Learning [59.86192283565134]
RLエージェントのオンライン安全保護のためのアプローチを提案する。
実行中、シールドは利用可能な各アクションの安全性を分析する。
この確率と与えられた閾値に基づいて、シールドはエージェントからのアクションをブロックするかを決定する。
論文 参考訳(メタデータ) (2022-12-04T16:00:29Z) - Near-Optimal Multi-Agent Learning for Safe Coverage Control [76.99020416197631]
マルチエージェントのカバレッジ制御問題では、エージェントは環境をナビゲートして、ある密度のカバレッジを最大化する位置に到達する。
本稿では,エージェントの安全性を保ちながら,その密度を効率よく学習し,カバレッジ問題を概ね解決することを目的とする。
まず、安全を確実に保証しながら、有限時間で最適範囲に近づいた結果を挙げる。
論文 参考訳(メタデータ) (2022-10-12T16:33:34Z) - Safe Reinforcement Learning via Shielding for POMDPs [29.058332307331785]
安全クリティカルな環境での強化学習(RL)は、破滅的な結果の決定を避けるためにエージェントを必要とする。
我々は,PMDPと最先端の深部RLアルゴリズムの密結合性について検討し,徹底的に評価する。
我々は、シールドを用いたRLエージェントが安全であるだけでなく、期待される報酬のより高い値に収束することを実証的に実証した。
論文 参考訳(メタデータ) (2022-04-02T03:51:55Z) - Safe Multi-Agent Reinforcement Learning via Shielding [29.49529835154155]
マルチエージェント強化学習(MARL)は、幅広い安全性クリティカルなアプリケーションでますます使用されています。
現在のMARL法には安全保証がない。
安全マルルの遮蔽アプローチを2つ紹介する。
論文 参考訳(メタデータ) (2021-01-27T04:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。