論文の概要: Automata Learning meets Shielding
- arxiv url: http://arxiv.org/abs/2212.01838v1
- Date: Sun, 4 Dec 2022 14:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 19:02:18.589219
- Title: Automata Learning meets Shielding
- Title(参考訳): 自動学習が遮蔽と出会う
- Authors: Martin Tappler, Stefan Pranger, Bettina K\"onighofer, Edi
Mu\v{s}kardin, Roderick Bloem and Kim Larsen
- Abstract要約: 安全は、強化学習(RL)における主要な研究課題の1つである。
本稿では,確率的,部分的に未知な環境下での探査において,RLエージェントの安全違反を回避する方法について述べる。
提案手法は,マルコフ決定過程(MDP)の自動学習とシールド合成を反復的手法で組み合わせたものである。
- 参考スコア(独自算出の注目度): 1.1417805445492082
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Safety is still one of the major research challenges in reinforcement
learning (RL). In this paper, we address the problem of how to avoid safety
violations of RL agents during exploration in probabilistic and partially
unknown environments. Our approach combines automata learning for Markov
Decision Processes (MDPs) and shield synthesis in an iterative approach.
Initially, the MDP representing the environment is unknown. The agent starts
exploring the environment and collects traces. From the collected traces, we
passively learn MDPs that abstractly represent the safety-relevant aspects of
the environment. Given a learned MDP and a safety specification, we construct a
shield. For each state-action pair within a learned MDP, the shield computes
exact probabilities on how likely it is that executing the action results in
violating the specification from the current state within the next $k$ steps.
After the shield is constructed, the shield is used during runtime and blocks
any actions that induce a too large risk from the agent. The shielded agent
continues to explore the environment and collects new data on the environment.
Iteratively, we use the collected data to learn new MDPs with higher accuracy,
resulting in turn in shields able to prevent more safety violations. We
implemented our approach and present a detailed case study of a Q-learning
agent exploring slippery Gridworlds. In our experiments, we show that as the
agent explores more and more of the environment during training, the improved
learned models lead to shields that are able to prevent many safety violations.
- Abstract(参考訳): 安全は、強化学習(RL)における主要な研究課題の1つである。
本稿では,確率的および部分的未知環境における調査中に,rlエージェントの安全性侵害を回避する方法について述べる。
提案手法は,マルコフ決定過程(MDP)の自動学習とシールド合成を反復的に組み合わせた手法である。
はじめに、環境を表すmdpは未知である。
エージェントは環境を探索し、トレースを収集します。
収集した痕跡から,環境の安全関連側面を抽象的に表現するMDPを受動的に学習する。
学習済みのMDPと安全仕様を考えると、シールドを構築します。
学習されたMDP内の各状態-アクションペアに対して、シールドは、アクションの実行によって次の$k$ステップで現在の状態から仕様を違反する確率を正確に計算する。
シールドが構築された後、シールドは実行中に使用され、エージェントから大きすぎるリスクを引き起こすアクションをブロックする。
シールドされたエージェントは環境を探索し続け、環境上の新しいデータを収集する。
繰り返して、収集したデータを使って新しいMDPを高い精度で学習し、それによってシールドがより多くの安全違反を防ぐことができる。
我々は,この手法を実装し,滑りやすいグリッドワールドを探索するQラーニングエージェントの詳細な事例研究を行った。
実験では,エージェントが訓練中に環境を探索するにつれて,学習モデルの改善がシールドにつながり,多数の安全侵害を防止できることを示した。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Model-based Dynamic Shielding for Safe and Efficient Multi-Agent
Reinforcement Learning [7.103977648997475]
MARL(Multi-Agent Reinforcement Learning)は、報酬を最大化するが、学習と展開フェーズにおいて安全保証を持たないポリシーを発見する。
MARLアルゴリズム設計をサポートするモデルベース動的シールド(MBDS)。
論文 参考訳(メタデータ) (2023-04-13T06:08:10Z) - Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects [27.41101006357176]
安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
論文 参考訳(メタデータ) (2023-04-06T14:03:24Z) - Online Shielding for Reinforcement Learning [59.86192283565134]
RLエージェントのオンライン安全保護のためのアプローチを提案する。
実行中、シールドは利用可能な各アクションの安全性を分析する。
この確率と与えられた閾値に基づいて、シールドはエージェントからのアクションをブロックするかを決定する。
論文 参考訳(メタデータ) (2022-12-04T16:00:29Z) - MESA: Offline Meta-RL for Safe Adaptation and Fault Tolerance [73.3242641337305]
最近の研究は、制約に違反する確率を測定するリスク尺度を学習し、安全を可能にするために使用することができる。
我々は,安全な探索をオフラインのメタRL問題とみなし,様々な環境における安全かつ安全でない行動の例を活用することを目的としている。
次に,メタラーニングシミュレーションのアプローチであるMESA(Meta-learning for Safe Adaptation)を提案する。
論文 参考訳(メタデータ) (2021-12-07T08:57:35Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。