Fugu-MT 論文翻訳(概要): Certifying Safety in Reinforcement Learning under Adversarial Perturbation Attacks

論文の概要: Certifying Safety in Reinforcement Learning under Adversarial Perturbation Attacks

arxiv url: http://arxiv.org/abs/2212.14115v1
Date: Wed, 28 Dec 2022 22:33:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-02 15:28:19.087600
Title: Certifying Safety in Reinforcement Learning under Adversarial Perturbation Attacks
Title（参考訳）: 対向的摂動攻撃による強化学習の安全性保証
Authors: Junlin Wu, Hussein Sibai and Yevgeniy Vorobeychik
Abstract要約: 本稿では,PMDPの真の状態が学習時にわかっているという仮定を付加する,部分教師付き強化学習(PSRL)フレームワークを提案する。逆入力摂動下でのPSRLポリシーの安全性を検証するための最初のアプローチと、PSRLを直接利用する2つの逆トレーニングアプローチを提案する。
参考スコア（独自算出の注目度）: 23.907977144668838
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Function approximation has enabled remarkable advances in applying reinforcement learning (RL) techniques in environments with high-dimensional inputs, such as images, in an end-to-end fashion, mapping such inputs directly to low-level control. Nevertheless, these have proved vulnerable to small adversarial input perturbations. A number of approaches for improving or certifying robustness of end-to-end RL to adversarial perturbations have emerged as a result, focusing on cumulative reward. However, what is often at stake in adversarial scenarios is the violation of fundamental properties, such as safety, rather than the overall reward that combines safety with efficiency. Moreover, properties such as safety can only be defined with respect to true state, rather than the high-dimensional raw inputs to end-to-end policies. To disentangle nominal efficiency and adversarial safety, we situate RL in deterministic partially-observable Markov decision processes (POMDPs) with the goal of maximizing cumulative reward subject to safety constraints. We then propose a partially-supervised reinforcement learning (PSRL) framework that takes advantage of an additional assumption that the true state of the POMDP is known at training time. We present the first approach for certifying safety of PSRL policies under adversarial input perturbations, and two adversarial training approaches that make direct use of PSRL. Our experiments demonstrate both the efficacy of the proposed approach for certifying safety in adversarial environments, and the value of the PSRL framework coupled with adversarial training in improving certified safety while preserving high nominal reward and high-quality predictions of true state.
Abstract（参考訳）: 関数近似は、画像などの高次元入力を持つ環境において、そのような入力を直接低レベル制御にマッピングする強化学習(RL)技術の適用において、顕著な進歩を可能にしている。それでも、これらは小さな逆入力摂動に弱いことが証明されている。その結果、対向的摂動に対するエンドツーエンドRLの堅牢性の改善や証明のための多くのアプローチが出現し、累積的な報酬に焦点が当てられている。しかし、逆境シナリオにしばしば関心を持つのは、安全性と効率を合わせた全体的な報酬ではなく、安全性などの基本的な特性の侵害である。さらに、安全性のような性質は、エンドツーエンドのポリシーに対する高次元の生入力よりも、真の状態に関してのみ定義できる。決定論的部分観測可能なマルコフ決定過程 (POMDP) において, 安全性制約による累積報酬の最大化を目標として, RL を分解する。そこで我々は,POMDPの真の状態が学習時にわかっているという仮定を付加した,部分教師付き強化学習(PSRL)フレームワークを提案する。逆入力摂動下でのPSRLポリシーの安全性を検証するための最初のアプローチと、PSRLを直接利用する2つの逆トレーニングアプローチを提案する。本実験は, 対人環境における安全性の証明のための提案手法の有効性と, PSRLフレームワークと対人トレーニングの併用により, 高名目報酬と実状態の高品質な予測を保ちながら, 認証安全性の向上を図ったものである。

関連論文リスト

Feasibility-Aware Pessimistic Estimation: Toward Long-Horizon Safety in Offline RL [14.767273209148545]
CVAEに基づくペシミズム(FASP)を用いたオフラインセーフ強化学習フレームワークを提案する。我々はハミルトン・ヤコビ(H-J)リーチビリティ解析を用いて信頼性の高い安全ラベルを生成する。また,報酬とコストのQ値の推定にも悲観的推定法を用いる。
論文参考訳（メタデータ） (2025-05-13T02:32:49Z)
Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文参考訳（メタデータ） (2025-03-09T17:54:33Z)
Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文参考訳（メタデータ） (2025-03-05T18:01:05Z)
Tilted Quantile Gradient Updates for Quantile-Constrained Reinforcement Learning [12.721239079824622]
予測型近似を使わずに高いレベルの安全性を実現する安全な強化学習(RL)パラダイムを提案する。非対称分布密度を補償するために、量子勾配の傾き更新戦略を実装した。実験により、提案モデルが安全性要件(量子的制約)を完全に満たし、高いリターンで最先端のベンチマークより優れていることが示された。
論文参考訳（メタデータ） (2024-12-17T18:58:00Z)
Latent Safety-Constrained Policy Approach for Safe Offline Reinforcement Learning [7.888219789657414]
安全オフライン強化学習(RL)において、安全制約を厳格に遵守しつつ累積報酬を最大化する政策を開発することが目的である。本稿では, 条件付き変分オートエンコーダを用いて, 保守的に安全な政策を学習することから始まる新しいアプローチを用いて, この問題に対処する。我々は、これを制約付き逆戻り最大化問題とみなし、この政策は、推定された潜伏安全性の制約に従い、報酬を最適化することを目的としている。
論文参考訳（メタデータ） (2024-12-11T22:00:07Z)
Embedding Safety into RL: A New Take on Trust Region Methods [1.5733417396701983]
強化学習(RL)エージェントは、様々なタスクを解くことができるが、安全でない振る舞いをする傾向がある。本稿では,安全制約に基づいて政策空間の幾何学を変更する新しいアプローチとして,制約付きトラスト地域政策最適化(C-TRPO)を提案する。
論文参考訳（メタデータ） (2024-11-05T09:55:50Z)
Practical and Robust Safety Guarantees for Advanced Counterfactual Learning to Rank [64.44255178199846]
我々は、既存の安全CLTRアプローチを一般化し、最先端の2重ロバストCLTRに適用する。また,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供するPRPO(proximal ranking Policy Optimization)を提案する。 PRPOは、デプロイ時に無条件の安全性を持つ最初の方法であり、現実世界のアプリケーションの堅牢な安全性に変換される。
論文参考訳（メタデータ） (2024-07-29T12:23:59Z)
Feasibility Consistent Representation Learning for Safe Reinforcement Learning [25.258227763316228]
FCSRL(Fasibility Consistent Safe Reinforcement Learning)という新しいフレームワークを導入する。本フレームワークは、表現学習と実現可能性指向の目的を組み合わせることで、安全RLのために生の状態から安全関連情報を識別し、抽出する。本手法は,従来の表現学習ベースラインよりも安全性に配慮した埋め込みを学習し,優れた性能を実現する。
論文参考訳（メタデータ） (2024-05-20T01:37:21Z)
The Pitfalls and Promise of Conformal Inference Under Adversarial Attacks [90.52808174102157]
医療画像や自律運転などの安全クリティカルな応用においては、高い敵の堅牢性を維持し、潜在的敵の攻撃から保護することが不可欠である。敵対的に訓練されたモデルに固有の不確実性に関して、注目すべき知識ギャップが残っている。本研究では,共形予測(CP)の性能を標準対向攻撃の文脈で検証することにより,ディープラーニングモデルの不確実性について検討する。
論文参考訳（メタデータ） (2024-05-14T18:05:19Z)
Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文参考訳（メタデータ） (2022-07-04T11:43:23Z)
Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文参考訳（メタデータ） (2021-06-21T21:42:08Z)
CROP: Certifying Robust Policies for Reinforcement Learning through Functional Smoothing [41.093241772796475]
本稿では, 逆境状態の摂動に対する強化学習(CROP)のためのロバスト政策の認定のための最初の枠組みを提案する。本研究では,国家ごとの行動の堅牢性と累積報酬の低限界の2種類のロバスト性認定基準を提案する。
論文参考訳（メタデータ） (2021-06-17T07:58:32Z)
Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文参考訳（メタデータ） (2021-05-17T20:16:46Z)
Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文参考訳（メタデータ） (2020-10-27T17:54:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。