論文の概要: Think Smart, Act SMARL! Analyzing Probabilistic Logic Driven Safety in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.04867v1
- Date: Thu, 07 Nov 2024 16:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:39:45.627831
- Title: Think Smart, Act SMARL! Analyzing Probabilistic Logic Driven Safety in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における確率論的論理駆動型安全性の分析
- Authors: Satchit Chatterji, Erman Acar,
- Abstract要約: 本稿では、シールド付き独立Q-ラーニングを実現するために、シールド付きMARL(SMARL)を提案する。
また、保護された独立したQ-ラーニングを可能にする確率論理時間差学習(PLTD)も導入している。
$ii$はその正の効果を示し、様々なゲーム理論環境で平衡選択機構として使われる。
- 参考スコア(独自算出の注目度): 3.0846824529023382
- License:
- Abstract: An important challenge for enabling the deployment of reinforcement learning (RL) algorithms in the real world is safety. This has resulted in the recent research field of Safe RL, which aims to learn optimal policies that are safe. One successful approach in that direction is probabilistic logic shields (PLS), a model-based Safe RL technique that uses formal specifications based on probabilistic logic programming, constraining an agent's policy to comply with those specifications in a probabilistic sense. However, safety is inherently a multi-agent concept, since real-world environments often involve multiple agents interacting simultaneously, leading to a complex system which is hard to control. Moreover, safe multi-agent RL (Safe MARL) is still underexplored. In order to address this gap, in this paper we ($i$) introduce Shielded MARL (SMARL) by extending PLS to MARL -- in particular, we introduce Probabilistic Logic Temporal Difference Learning (PLTD) to enable shielded independent Q-learning (SIQL), and introduce shielded independent PPO (SIPPO) using probabilistic logic policy gradients; ($ii$) show its positive effect and use as an equilibrium selection mechanism in various game-theoretic environments including two-player simultaneous games, extensive-form games, stochastic games, and some grid-world extensions in terms of safety, cooperation, and alignment with normative behaviors; and ($iii$) look into the asymmetric case where only one agent is shielded, and show that the shielded agent has a significant influence on the unshielded one, providing further evidence of SMARL's ability to enhance safety and cooperation in diverse multi-agent environments.
- Abstract(参考訳): 強化学習(RL)アルゴリズムを現実世界に展開するための重要な課題は安全性である。
これは、安全である最適なポリシーを学習することを目的とした、Safe RLの最近の研究分野につながった。
この方向で成功したアプローチの1つは、確率論的論理シールド(PLS)である。これはモデルベースのSafe RL技術で、確率論的論理プログラミングに基づいて形式的な仕様を使用し、エージェントのポリシーを確率論的意味で準拠するように制約する。
しかし、安全性は本質的にマルチエージェントの概念であり、現実の環境はしばしば複数のエージェントが同時に相互作用し、制御が難しい複雑なシステムに繋がる。
さらに、安全なマルチエージェントRL (Safe MARL) もまだ探索されていない。
このギャップに対処するため,本論文では,PSSをMARLに拡張することで,シールド付きMARL(SMARL)を導入する。特に,シールド付き独立Q-ラーニング(SIQL)を実現するための確率的論理時間差学習(PLTD)を導入し,確率的論理ポリシー勾配を用いたシールド付き独立PPO(SIPPO)を導入し,また,2プレイヤー同時ゲーム,広角ゲーム,確率ゲーム,グリッドワールド拡張を,安全,協調,規範的行動との整合性の観点から検討する。
関連論文リスト
- DeepSafeMPC: Deep Learning-Based Model Predictive Control for Safe
Multi-Agent Reinforcement Learning [11.407941376728258]
安全なマルチエージェント強化学習(DeepSafeMPC)のためのDeep Learning-based Model Predictive Controlと呼ばれる新しい手法を提案する。
DeepSafeMPCの重要な洞察は、環境力学を正確に予測するために、エンタライズされたディープラーニングモデルを活用することである。
Safe Multi-agent MuJoCo 環境を用いて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-11T03:17:33Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Model-based Dynamic Shielding for Safe and Efficient Multi-Agent
Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。
MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文 参考訳(メタデータ) (2023-04-13T06:08:10Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Online Shielding for Reinforcement Learning [59.86192283565134]
RLエージェントのオンライン安全保護のためのアプローチを提案する。
実行中、シールドは利用可能な各アクションの安全性を分析する。
この確率と与えられた閾値に基づいて、シールドはエージェントからのアクションをブロックするかを決定する。
論文 参考訳(メタデータ) (2022-12-04T16:00:29Z) - Safe Reinforcement Learning via Shielding for POMDPs [29.058332307331785]
安全クリティカルな環境での強化学習(RL)は、破滅的な結果の決定を避けるためにエージェントを必要とする。
我々は,PMDPと最先端の深部RLアルゴリズムの密結合性について検討し,徹底的に評価する。
我々は、シールドを用いたRLエージェントが安全であるだけでなく、期待される報酬のより高い値に収束することを実証的に実証した。
論文 参考訳(メタデータ) (2022-04-02T03:51:55Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Assured Learning-enabled Autonomy: A Metacognitive Reinforcement
Learning Framework [4.427447378048202]
事前指定された報酬機能を持つ強化学習(rl)エージェントは、さまざまな状況で安全性を保証できない。
本稿では,メタ認知学習機能を備えたRLアルゴリズムを用いて,自律制御フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-23T14:01:35Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。