論文の概要: Provable Safe Reinforcement Learning with Binary Feedback
- arxiv url: http://arxiv.org/abs/2210.14492v1
- Date: Wed, 26 Oct 2022 05:37:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 12:54:16.815711
- Title: Provable Safe Reinforcement Learning with Binary Feedback
- Title(参考訳): バイナリフィードバックによる安全な強化学習
- Authors: Andrew Bennett, Dipendra Misra, Nathan Kallus
- Abstract要約: 状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
- 参考スコア(独自算出の注目度): 62.257383728544006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety is a crucial necessity in many applications of reinforcement learning
(RL), whether robotic, automotive, or medical. Many existing approaches to safe
RL rely on receiving numeric safety feedback, but in many cases this feedback
can only take binary values; that is, whether an action in a given state is
safe or unsafe. This is particularly true when feedback comes from human
experts. We therefore consider the problem of provable safe RL when given
access to an offline oracle providing binary feedback on the safety of state,
action pairs. We provide a novel meta algorithm, SABRE, which can be applied to
any MDP setting given access to a blackbox PAC RL algorithm for that setting.
SABRE applies concepts from active learning to reinforcement learning to
provably control the number of queries to the safety oracle. SABRE works by
iteratively exploring the state space to find regions where the agent is
currently uncertain about safety. Our main theoretical results shows that,
under appropriate technical assumptions, SABRE never takes unsafe actions
during training, and is guaranteed to return a near-optimal safe policy with
high probability. We provide a discussion of how our meta-algorithm may be
applied to various settings studied in both theoretical and empirical
frameworks.
- Abstract(参考訳): ロボット、自動車、医療など、強化学習(rl)の多くの応用において、安全性は不可欠である。
安全なRLに対する既存のアプローチの多くは、数値的安全性フィードバックの受信に依存しているが、多くの場合、このフィードバックはバイナリ値のみを取ることができる。
これは、フィードバックが人間の専門家から来るときに特に当てはまる。
そこで我々は、状態、行動ペアの安全性に関する二元的なフィードバックを提供するオフラインのオラクルへのアクセスを与えられた場合、安全なRLを保証できるという問題を考察する。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
SABREは、アクティブラーニングから強化ラーニングまでの概念を適用し、安全オラクルへのクエリ数を確実に制御する。
SABREは、エージェントが現在安全について不確実な領域を見つけるために、州空間を反復的に探索する。
我々の主要な理論的結果は、適切な技術的前提の下では、SABREはトレーニング中に安全でない行動を取ることはなく、高い確率で準最適安全政策を返すことが保証されていることを示している。
我々は,我々のメタアルゴリズムが,理論的および実証的両方のフレームワークで研究された様々な設定にどのように適用されるかについて議論する。
関連論文リスト
- ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding [5.5929450570003185]
未知のブラックボックス環境におけるRLエージェントのトレーニングは、ドメイン/タスクに関する事前の知識が利用できない場合にさらに安全性の高いリスクをもたらす。
本稿では、トレーニング中の状態-動作ペアの安全性と安全性を区別する新しいポストシールド技術であるADVICE(Adaptive Shielding with a Contrastive Autoencoder)を紹介する。
論文 参考訳(メタデータ) (2024-05-28T13:47:21Z) - Long-term Safe Reinforcement Learning with Binary Feedback [5.684409853507594]
LoBiSaRL (Long-term Binary Safe RL) はマルコフ決定過程に対する安全なRLアルゴリズムである。
LoBiSaRLは長期の安全制約を高い確率で保証する。
理論的には,LoBiSaRLは長期の安全制約を高い確率で保証している。
論文 参考訳(メタデータ) (2024-01-08T10:07:31Z) - Safe Reinforcement Learning in a Simulated Robotic Arm [0.0]
強化学習(RL)エージェントは、最適なポリシーを学ぶために環境を探索する必要がある。
本稿では,Pandaロボットアームを用いたカスタマイズ環境を構築することにより,安全なRLアルゴリズムの適用性を向上させる。
論文 参考訳(メタデータ) (2023-11-28T19:22:16Z) - OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning
Research [3.0536277689386453]
SafeRL研究の迅速化を目的とした基礎的枠組みを提案する。
我々のフレームワークは、異なるRLドメインにまたがるアルゴリズムの配列を含み、安全要素に重点を置いている。
論文 参考訳(メタデータ) (2023-05-16T09:22:14Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Provably Safe Reinforcement Learning: Conceptual Analysis, Survey, and
Benchmarking [12.719948223824483]
強化学習(RL)アルゴリズムは、多くの現実世界のタスクにおいて、その潜在能力を解き放つために不可欠である。
しかしながら、バニラRLと最も安全なRLアプローチは安全性を保証するものではない。
本稿では,既存の安全なRL手法の分類を導入し,連続的および離散的な動作空間の概念的基礎を提示し,既存の手法を実証的にベンチマークする。
本稿では、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、確実に安全なRLアプローチを選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2022-05-13T16:34:36Z) - Learning to be Safe: Deep RL with a Safety Critic [72.00568333130391]
安全なRLへの自然な第一のアプローチは、ポリシーの動作に関する制約を手動で指定することである。
我々は,タスクと環境の1つのセットで安全であることを学習し,その学習した直観を用いて将来の行動を制限することを提案する。
論文 参考訳(メタデータ) (2020-10-27T20:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。