論文の概要: Certifying Safety in Reinforcement Learning under Adversarial
Perturbation Attacks
- arxiv url: http://arxiv.org/abs/2212.14115v1
- Date: Wed, 28 Dec 2022 22:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:28:19.087600
- Title: Certifying Safety in Reinforcement Learning under Adversarial
Perturbation Attacks
- Title(参考訳): 対向的摂動攻撃による強化学習の安全性保証
- Authors: Junlin Wu, Hussein Sibai and Yevgeniy Vorobeychik
- Abstract要約: 本稿では,PMDPの真の状態が学習時にわかっているという仮定を付加する,部分教師付き強化学習(PSRL)フレームワークを提案する。
逆入力摂動下でのPSRLポリシーの安全性を検証するための最初のアプローチと、PSRLを直接利用する2つの逆トレーニングアプローチを提案する。
- 参考スコア(独自算出の注目度): 23.907977144668838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Function approximation has enabled remarkable advances in applying
reinforcement learning (RL) techniques in environments with high-dimensional
inputs, such as images, in an end-to-end fashion, mapping such inputs directly
to low-level control. Nevertheless, these have proved vulnerable to small
adversarial input perturbations. A number of approaches for improving or
certifying robustness of end-to-end RL to adversarial perturbations have
emerged as a result, focusing on cumulative reward. However, what is often at
stake in adversarial scenarios is the violation of fundamental properties, such
as safety, rather than the overall reward that combines safety with efficiency.
Moreover, properties such as safety can only be defined with respect to true
state, rather than the high-dimensional raw inputs to end-to-end policies. To
disentangle nominal efficiency and adversarial safety, we situate RL in
deterministic partially-observable Markov decision processes (POMDPs) with the
goal of maximizing cumulative reward subject to safety constraints. We then
propose a partially-supervised reinforcement learning (PSRL) framework that
takes advantage of an additional assumption that the true state of the POMDP is
known at training time. We present the first approach for certifying safety of
PSRL policies under adversarial input perturbations, and two adversarial
training approaches that make direct use of PSRL. Our experiments demonstrate
both the efficacy of the proposed approach for certifying safety in adversarial
environments, and the value of the PSRL framework coupled with adversarial
training in improving certified safety while preserving high nominal reward and
high-quality predictions of true state.
- Abstract(参考訳): 関数近似は、画像などの高次元入力を持つ環境において、そのような入力を直接低レベル制御にマッピングする強化学習(RL)技術の適用において、顕著な進歩を可能にしている。
それでも、これらは小さな逆入力摂動に弱いことが証明されている。
その結果、対向的摂動に対するエンドツーエンドRLの堅牢性の改善や証明のための多くのアプローチが出現し、累積的な報酬に焦点が当てられている。
しかし、逆境シナリオにしばしば関心を持つのは、安全性と効率を合わせた全体的な報酬ではなく、安全性などの基本的な特性の侵害である。
さらに、安全性のような性質は、エンドツーエンドのポリシーに対する高次元の生入力よりも、真の状態に関してのみ定義できる。
決定論的部分観測可能なマルコフ決定過程 (POMDP) において, 安全性制約による累積報酬の最大化を目標として, RL を分解する。
そこで我々は,POMDPの真の状態が学習時にわかっているという仮定を付加した,部分教師付き強化学習(PSRL)フレームワークを提案する。
逆入力摂動下でのPSRLポリシーの安全性を検証するための最初のアプローチと、PSRLを直接利用する2つの逆トレーニングアプローチを提案する。
本実験は, 対人環境における安全性の証明のための提案手法の有効性と, PSRLフレームワークと対人トレーニングの併用により, 高名目報酬と実状態の高品質な予測を保ちながら, 認証安全性の向上を図ったものである。
関連論文リスト
- Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
強化学習(RL)エージェントは、様々なタスクを解くことができるが、安全でない振る舞いをする傾向がある。
本稿では,安全制約に基づいて政策空間の幾何学を変更する新しいアプローチとして,制約付きトラスト地域政策最適化(C-TRPO)を提案する。
論文 参考訳(メタデータ) (2024-11-05T09:55:50Z) - Practical and Robust Safety Guarantees for Advanced Counterfactual Learning to Rank [64.44255178199846]
我々は、既存の安全CLTRアプローチを一般化し、最先端の2重ロバストCLTRに適用する。
また,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供するPRPO(proximal ranking Policy Optimization)を提案する。
PRPOは、デプロイ時に無条件の安全性を持つ最初の方法であり、現実世界のアプリケーションの堅牢な安全性に変換される。
論文 参考訳(メタデータ) (2024-07-29T12:23:59Z) - Feasibility Consistent Representation Learning for Safe Reinforcement Learning [25.258227763316228]
FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。
本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。
本手法は,従来の表現学習ベースラインよりも安全性に配慮した埋め込みを学習し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-20T01:37:21Z) - The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。
敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。
本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文 参考訳(メタデータ) (2024-05-14T18:05:19Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - CROP: Certifying Robust Policies for Reinforcement Learning through
Functional Smoothing [41.093241772796475]
本稿では, 逆境状態の摂動に対する強化学習(CROP)のためのロバスト政策の認定のための最初の枠組みを提案する。
本研究では,国家ごとの行動の堅牢性と累積報酬の低限界の2種類のロバスト性認定基準を提案する。
論文 参考訳(メタデータ) (2021-06-17T07:58:32Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。