論文の概要: Safe Multi-Agent Reinforcement Learning via Shielding
- arxiv url: http://arxiv.org/abs/2101.11196v2
- Date: Tue, 2 Feb 2021 18:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:41:56.311831
- Title: Safe Multi-Agent Reinforcement Learning via Shielding
- Title(参考訳): シールドによる安全マルチエージェント強化学習
- Authors: Ingy Elsayed-Aly, Suda Bharadwaj, Christopher Amato, R\"udiger Ehlers,
Ufuk Topcu, Lu Feng
- Abstract要約: マルチエージェント強化学習(MARL)は、幅広い安全性クリティカルなアプリケーションでますます使用されています。
現在のMARL法には安全保証がない。
安全マルルの遮蔽アプローチを2つ紹介する。
- 参考スコア(独自算出の注目度): 29.49529835154155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) has been increasingly used in a
wide range of safety-critical applications, which require guaranteed safety
(e.g., no unsafe states are ever visited) during the learning
process.Unfortunately, current MARL methods do not have safety guarantees.
Therefore, we present two shielding approaches for safe MARL. In centralized
shielding, we synthesize a single shield to monitor all agents' joint actions
and correct any unsafe action if necessary. In factored shielding, we
synthesize multiple shields based on a factorization of the joint state space
observed by all agents; the set of shields monitors agents concurrently and
each shield is only responsible for a subset of agents at each
step.Experimental results show that both approaches can guarantee the safety of
agents during learning without compromising the quality of learned policies;
moreover, factored shielding is more scalable in the number of agents than
centralized shielding.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、学習プロセス中に保証された安全性(例えば、安全でない状態は一度も訪れない)を必要とする幅広い安全クリティカルなアプリケーションで、ますます使われている。
そこで,安全MARLに対する2つの遮蔽手法を提案する。
集中シールドでは,すべてのエージェントの協調動作を監視し,必要ならば安全でない動作を補正するために,単一のシールドを合成する。
因子遮蔽では,すべてのエージェントが観察する結合状態空間の因子化に基づいて複数のシールドを合成し,各シールドはエージェントのサブセットにのみ責任を負う。実験結果から,各シールドは学習中のエージェントの安全性を,学習方針の質を損なうことなく保証できることがわかった。さらに,因子遮蔽は中央集権遮蔽よりも,エージェント数でよりスケーラブルである。
関連論文リスト
- ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable
Safety Detectors [93.43498570530565]
ShieldLMはLarge Language Models (LLMs) の安全検知装置であり、一般的な人間の安全基準に適合する。
ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文 参考訳(メタデータ) (2024-02-26T09:43:02Z) - Assessing the Brittleness of Safety Alignment via Pruning and Low-Rank
Modifications [71.73807057757793]
大きな言語モデル(LLM)は、その安全性メカニズムに固有の脆さを示す。
本研究では, プルーニングと低ランク改造を利用した安全アライメントの脆性について検討した。
安全クリティカル領域への変更が制限された場合でも,LSMは低コストの微調整攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2024-02-07T18:34:38Z) - Shielded Reinforcement Learning for Hybrid Systems [1.0485739694839669]
強化学習は、ほぼ最適に近いコントローラを構築するために利用されてきたが、それらの動作は安全であると保証されていない。
学習したコントローラーに安全を課す方法の1つは、設計によって正しいシールドを使用することである。
本研究では,いわゆる野蛮な手法によるシールドの構築を提案し,基礎となるパーティションベースの2プレーヤ安全ゲームの近似有限表現を抽出する。
論文 参考訳(メタデータ) (2023-08-28T09:04:52Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Safety Shielding under Delayed Observation [59.86192283565134]
シールドは安全な実行を保証するコンストラクション・バイ・コンストラクション・インストラクタである。
シールドは、将来の干渉が最小化される可能性が最も高い方法で、安全な修正行動を選択するべきである。
現実的な運転シミュレータにおけるシールドの最初の統合について述べる。
論文 参考訳(メタデータ) (2023-07-05T10:06:10Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Model-based Dynamic Shielding for Safe and Efficient Multi-Agent
Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。
MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文 参考訳(メタデータ) (2023-04-13T06:08:10Z) - Online Shielding for Reinforcement Learning [59.86192283565134]
RLエージェントのオンライン安全保護のためのアプローチを提案する。
実行中、シールドは利用可能な各アクションの安全性を分析する。
この確率と与えられた閾値に基づいて、シールドはエージェントからのアクションをブロックするかを決定する。
論文 参考訳(メタデータ) (2022-12-04T16:00:29Z) - Automata Learning meets Shielding [1.1417805445492082]
安全は、強化学習(RL)における主要な研究課題の1つである。
本稿では,確率的,部分的に未知な環境下での探査において,RLエージェントの安全違反を回避する方法について述べる。
提案手法は,マルコフ決定過程(MDP)の自動学習とシールド合成を反復的手法で組み合わせたものである。
論文 参考訳(メタデータ) (2022-12-04T14:58:12Z) - Safe Reinforcement Learning via Shielding for POMDPs [29.058332307331785]
安全クリティカルな環境での強化学習(RL)は、破滅的な結果の決定を避けるためにエージェントを必要とする。
我々は,PMDPと最先端の深部RLアルゴリズムの密結合性について検討し,徹底的に評価する。
我々は、シールドを用いたRLエージェントが安全であるだけでなく、期待される報酬のより高い値に収束することを実証的に実証した。
論文 参考訳(メタデータ) (2022-04-02T03:51:55Z) - Multi-Agent Constrained Policy Optimisation [17.772811770726296]
制約付きマルコフゲームとして安全なMARL問題を定式化し、ポリシー最適化手法を用いて解決する。
マルチエージェント制約付き政策最適化 (MACPO) とMAPPO-ラグランジアン (MAPPO-Lagrangian) は、制約付き政策最適化とマルチエージェント信頼領域学習の両方から理論を利用する。
我々は,様々なMARLベースラインを含むSafe Multi-Agent MuJoCoのベンチマークスイートを開発した。
論文 参考訳(メタデータ) (2021-10-06T14:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。