論文の概要: An Abstraction-based Method to Verify Multi-Agent Deep
Reinforcement-Learning Behaviours
- arxiv url: http://arxiv.org/abs/2102.01434v1
- Date: Tue, 2 Feb 2021 11:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:27:14.723713
- Title: An Abstraction-based Method to Verify Multi-Agent Deep
Reinforcement-Learning Behaviours
- Title(参考訳): 抽象的手法によるマルチエージェント深層補強学習行動の検証
- Authors: Pierre El Mqirmi, Francesco Belardinelli and Borja G. Le\'on
- Abstract要約: マルチエージェント強化学習(RL)はしばしば、学習エージェントの安全な行動を保証するために苦労する。
本稿では,形式検証と(深度)RLアルゴリズムを組み合わせることで,形式化された安全制約の満足度を保証する手法を提案する。
- 参考スコア(独自算出の注目度): 8.95294551927446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (RL) often struggles to ensure the safe
behaviours of the learning agents, and therefore it is generally not adapted to
safety-critical applications. To address this issue, we present a methodology
that combines formal verification with (deep) RL algorithms to guarantee the
satisfaction of formally-specified safety constraints both in training and
testing. The approach we propose expresses the constraints to verify in
Probabilistic Computation Tree Logic (PCTL) and builds an abstract
representation of the system to reduce the complexity of the verification step.
This abstract model allows for model checking techniques to identify a set of
abstract policies that meet the safety constraints expressed in PCTL. Then, the
agents' behaviours are restricted according to these safe abstract policies. We
provide formal guarantees that by using this method, the actions of the agents
always meet the safety constraints, and provide a procedure to generate an
abstract model automatically. We empirically evaluate and show the
effectiveness of our method in a multi-agent environment.
- Abstract(参考訳): マルチエージェント強化学習(RL)は、学習エージェントの安全な動作を保証するためにしばしば苦労するため、一般的には安全クリティカルな応用に適応しない。
この問題に対処するために,形式検証と(深度)RLアルゴリズムを組み合わせて,トレーニングとテストの両方において,公式に指定された安全制約の満足度を保証する手法を提案する。
私たちが提案するアプローチは、確率計算木論理(PCTL)で検証する制約を表現し、検証ステップの複雑さを減らすためにシステムの抽象表現を構築します。
この抽象モデルにより、PCTLで表現される安全制約を満たす抽象ポリシーの集合をモデル検査技術で識別することができる。
そして、これらの安全な抽象ポリシーに従ってエージェントの振る舞いが制限される。
本手法を用いることで,エージェントの動作が常に安全制約を満たすことを保証し,抽象モデルを自動的に生成する手順を提供する。
マルチエージェント環境において,本手法の有効性を実証的に評価し,実証する。
関連論文リスト
- Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Online Safety Property Collection and Refinement for Safe Deep
Reinforcement Learning in Mapless Navigation [79.89605349842569]
オンラインプロパティのコレクション・リファインメント(CROP)フレームワークをトレーニング時にプロパティを設計するために導入する。
CROPは、安全でない相互作用を識別し、安全特性を形成するためにコストシグナルを使用する。
本手法をいくつかのロボットマップレスナビゲーションタスクで評価し,CROPで計算した違反量によって,従来のSafe DRL手法よりも高いリターンと低いリターンが得られることを示す。
論文 参考訳(メタデータ) (2023-02-13T21:19:36Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Risk Consistent Multi-Class Learning from Label Proportions [64.0125322353281]
本研究は,バッグにトレーニングインスタンスを提供するMCLLP設定によるマルチクラス学習に対処する。
既存のほとんどのMCLLPメソッドは、インスタンスの予測や擬似ラベルの割り当てにバッグワイズな制約を課している。
経験的リスク最小化フレームワークを用いたリスク一貫性手法を提案する。
論文 参考訳(メタデータ) (2022-03-24T03:49:04Z) - Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。
本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。
本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文 参考訳(メタデータ) (2022-01-10T23:55:04Z) - Reinforcement Learning for Task Specifications with Action-Constraints [4.046919218061427]
有限状態マルコフ決定過程の最適制御ポリシーを学習する手法を提案する。
安全でないと考えられるアクションシーケンスの集合が有限状態オートマトンによって与えられると仮定する。
非マルコフ的行動系列と状態制約の存在下で最適なポリシーを学習するためのQ-learningアルゴリズムのバージョンを提案する。
論文 参考訳(メタデータ) (2022-01-02T04:22:01Z) - Distillation of RL Policies with Formal Guarantees via Variational
Abstraction of Markov Decision Processes (Technical Report) [0.0]
我々は、強化学習(RL)を通して学んだ政策の文脈で、政策の単純化と検証の課題を考える。
未知の環境と学習された離散潜在モデルの間に新しい双シミュレーション境界を導出する。
本稿では、現状のRLを用いて得られたポリシーを用いて、ほぼ正しいバイシミュレーション保証を持つ離散潜在モデルを生成する変分オートエンコーダを効率的に訓練する方法を示す。
論文 参考訳(メタデータ) (2021-12-17T17:57:32Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z) - Constrained Markov Decision Processes via Backward Value Functions [43.649330976089004]
制約付きマルコフ決定プロセスとして,制約付き学習の問題をモデル化する。
我々のアプローチの重要な貢献は、累積的なコスト制約を状態ベースの制約に変換することである。
我々は、エージェントが訓練の過程で安全を確保しながら収束する理論的保証を提供する。
論文 参考訳(メタデータ) (2020-08-26T20:56:16Z) - Learning with Safety Constraints: Sample Complexity of Reinforcement
Learning for Constrained MDPs [13.922754427601491]
我々は,安全性の制約と,所望の精度を確保するために必要なサンプル数との関係を特徴付ける。
我々の主な発見は、制約のない状態の最もよく知られた境界と比較して、制約されたRLアルゴリズムのサンプルは制約の数に対数的な因子によって増加することである。
論文 参考訳(メタデータ) (2020-08-01T18:17:08Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。