論文の概要: Online Shielding for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.01861v1
- Date: Sun, 4 Dec 2022 16:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 19:13:19.587663
- Title: Online Shielding for Reinforcement Learning
- Title(参考訳): 強化学習のためのオンラインシールド
- Authors: Bettina K\"onighofer, Julian Rudolf, Alexander Palmisano, Martin
Tappler and Roderick Bloem
- Abstract要約: RLエージェントのオンライン安全保護のためのアプローチを提案する。
実行中、シールドは利用可能な各アクションの安全性を分析する。
この確率と与えられた閾値に基づいて、シールドはエージェントからのアクションをブロックするかを決定する。
- 参考スコア(独自算出の注目度): 59.86192283565134
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Besides the recent impressive results on reinforcement learning (RL), safety
is still one of the major research challenges in RL. RL is a machine-learning
approach to determine near-optimal policies in Markov decision processes
(MDPs). In this paper, we consider the setting where the safety-relevant
fragment of the MDP together with a temporal logic safety specification is
given and many safety violations can be avoided by planning ahead a short time
into the future. We propose an approach for online safety shielding of RL
agents. During runtime, the shield analyses the safety of each available
action. For any action, the shield computes the maximal probability to not
violate the safety specification within the next $k$ steps when executing this
action. Based on this probability and a given threshold, the shield decides
whether to block an action from the agent. Existing offline shielding
approaches compute exhaustively the safety of all state-action combinations
ahead of time, resulting in huge computation times and large memory
consumption. The intuition behind online shielding is to compute at runtime the
set of all states that could be reached in the near future. For each of these
states, the safety of all available actions is analysed and used for shielding
as soon as one of the considered states is reached. Our approach is well suited
for high-level planning problems where the time between decisions can be used
for safety computations and it is sustainable for the agent to wait until these
computations are finished. For our evaluation, we selected a 2-player version
of the classical computer game SNAKE. The game represents a high-level planning
problem that requires fast decisions and the multiplayer setting induces a
large state space, which is computationally expensive to analyse exhaustively.
- Abstract(参考訳): 強化学習(RL)の最近の顕著な成果に加えて、安全はRLの主要な研究課題の1つである。
RLは、マルコフ決定プロセス(MDP)における準最適ポリシーを決定する機械学習アプローチである。
本稿では,MDPの安全性関連フラグメントを時間論理的安全性仕様とともに付与し,短期的に計画することで,多くの安全違反を回避できる設定について考察する。
RLエージェントのオンライン安全保護のためのアプローチを提案する。
実行時、shieldは利用可能な各アクションの安全性を分析する。
任意のアクションに対して、シールドは、このアクションの実行時に次の$k$ステップで安全仕様に違反しない最大確率を計算する。
この確率と所定の閾値に基づいて、シールドはエージェントからアクションをブロックするかどうかを決定する。
既存のオフラインシールドアプローチは、前もって全ての状態-動作の組み合わせの安全性を徹底的に計算し、計算時間とメモリ消費を大きくする。
オンラインシールドの背景にある直感は、近い将来に到達可能なすべての状態のセットを実行時に計算することだ。
これら各州について、利用可能なすべての行動の安全は分析され、検討された状態の1つが到達した直後に遮蔽に使用される。
提案手法は,安全計算に決定間時間を使用でき,これらの計算が完了するまでエージェントが待機できるような高レベルの計画問題に適している。
本評価では,従来のコンピュータゲームSNAKEの2プレイヤー版を選択した。
ゲームは高速な意思決定を必要とする高レベルの計画問題であり、マルチプレイヤー設定は大きな状態空間を誘導する。
関連論文リスト
- Long-term Safe Reinforcement Learning with Binary Feedback [5.684409853507594]
LoBiSaRL (Long-term Binary Safe RL) はマルコフ決定過程に対する安全なRLアルゴリズムである。
LoBiSaRLは長期の安全制約を高い確率で保証する。
理論的には,LoBiSaRLは長期の安全制約を高い確率で保証している。
論文 参考訳(メタデータ) (2024-01-08T10:07:31Z) - Safe POMDP Online Planning via Shielding [6.234405592444883]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、不確実性の下でのシーケンシャルな意思決定のために多くのロボットアプリケーションで広く利用されている。
部分的に観測可能なモンテカルロ計画(POMCP)のようなPOMDPオンライン計画アルゴリズムは、期待されるリターンを最大化することを目的として、非常に大きなPOMDPを解決することができる。
しかし、結果として生じる政策は、現実世界の安全に不可欠なタスクに欠かせない安全保証を提供することはできない。
論文 参考訳(メタデータ) (2023-09-19T00:02:05Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Automata Learning meets Shielding [1.1417805445492082]
安全は、強化学習(RL)における主要な研究課題の1つである。
本稿では,確率的,部分的に未知な環境下での探査において,RLエージェントの安全違反を回避する方法について述べる。
提案手法は,マルコフ決定過程(MDP)の自動学習とシールド合成を反復的手法で組み合わせたものである。
論文 参考訳(メタデータ) (2022-12-04T14:58:12Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Safe Reinforcement Learning by Imagining the Near Future [37.0376099401243]
本研究は, 短期的に計画することで, 安全でない状態を回避できるような環境に着目する。
我々は、安全でない軌跡を過度に罰するモデルに基づくアルゴリズムを考案し、そのアルゴリズムが特定の仮定の下で安全でない状態を回避できることを保証する。
実験により, 連続制御タスクにおいて, 安全性違反が少なく, 競争力のある報奨を達成できることが実証された。
論文 参考訳(メタデータ) (2022-02-15T23:28:24Z) - SAUTE RL: Almost Surely Safe Reinforcement Learning Using State
Augmentation [63.25418599322092]
安全性の制約をほぼ確実に(あるいは確率1で)満たすことは、実生活アプリケーションにおける強化学習(RL)の展開に不可欠である。
安全性向上型マルコフ決定プロセス(MDP)の導入による課題に対処する。
Saute MDPがSafe Augmentationの問題を、新機能の異なる視点から見ることができることを示す。
論文 参考訳(メタデータ) (2022-02-14T08:57:01Z) - Safe Reinforcement Learning with Linear Function Approximation [48.75026009895308]
我々は、状態と行動の未知の線形コスト関数として安全を導入し、それは常に一定の閾値以下でなければならない。
次に,線形関数近似を用いたマルコフ決定過程(MDP)について,SLUCB-QVIおよびRSLUCB-QVIと呼ぶアルゴリズムを提案する。
SLUCB-QVI と RSLUCB-QVI は、Emphno safety violation で $tildemathcalOleft(kappasqrtd3H3Tright)$ regret, almost matching を達成した。
論文 参考訳(メタデータ) (2021-06-11T08:46:57Z) - Learning to Act Safely with Limited Exposure and Almost Sure Certainty [1.0323063834827415]
本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-05-18T18:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。