論文の概要: Certifiable Robustness to Adversarial State Uncertainty in Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.06496v6
- Date: Wed, 2 Feb 2022 18:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 12:42:20.439840
- Title: Certifiable Robustness to Adversarial State Uncertainty in Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習における逆境状態の不確かさに対する証明可能なロバスト性
- Authors: Michael Everett, Bjorn Lutjens, Jonathan P. How
- Abstract要約: ディープニューラルネットワークベースのシステムは、現在では多くのロボティクスタスクにおいて最先端のシステムとなっているが、ネットワークの堅牢性に関する公式な保証なしに、安全クリティカルドメインへの適用は危険なままである。
センサー入力に対する小さな摂動は、しばしばネットワークベースの決定を変えるのに十分である。
この研究は、認証された敵対的ロバスト性の研究を活用して、深い強化学習アルゴリズムのためのオンラインロバストを開発する。
- 参考スコア(独自算出の注目度): 40.989393438716476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Network-based systems are now the state-of-the-art in many
robotics tasks, but their application in safety-critical domains remains
dangerous without formal guarantees on network robustness. Small perturbations
to sensor inputs (from noise or adversarial examples) are often enough to
change network-based decisions, which was recently shown to cause an autonomous
vehicle to swerve into another lane. In light of these dangers, numerous
algorithms have been developed as defensive mechanisms from these adversarial
inputs, some of which provide formal robustness guarantees or certificates.
This work leverages research on certified adversarial robustness to develop an
online certifiably robust for deep reinforcement learning algorithms. The
proposed defense computes guaranteed lower bounds on state-action values during
execution to identify and choose a robust action under a worst-case deviation
in input space due to possible adversaries or noise. Moreover, the resulting
policy comes with a certificate of solution quality, even though the true state
and optimal action are unknown to the certifier due to the perturbations. The
approach is demonstrated on a Deep Q-Network policy and is shown to increase
robustness to noise and adversaries in pedestrian collision avoidance scenarios
and a classic control task. This work extends one of our prior works with new
performance guarantees, extensions to other RL algorithms, expanded results
aggregated across more scenarios, an extension into scenarios with adversarial
behavior, comparisons with a more computationally expensive method, and
visualizations that provide intuition about the robustness algorithm.
- Abstract(参考訳): ディープニューラルネットワークベースのシステムは、現在では多くのロボティクスタスクにおいて最先端のシステムとなっているが、ネットワークの堅牢性に関する公式な保証なしに、安全クリティカルドメインへの適用は危険なままである。
センサー入力に対する小さな摂動(ノイズや敵対的な例から)は、ネットワークベースの決定を変えるのに十分であることが多い。
これらの危険性に照らして、多くのアルゴリズムがこれらの敵対的な入力から防御機構として開発され、そのうちのいくつかは正式な堅牢性保証または証明を提供している。
この研究は、認証された敵対的ロバスト性の研究を活用し、深い強化学習アルゴリズムのためのオンラインロバストを開発する。
提案したディフェンスは、実行中の状態-作用値の低いバウンダリを保証し、入力空間の最悪の偏差の下で堅牢な動作を特定し、選択する。
さらに、結果として得られるポリシーは、真の状態と最適なアクションが摂動によって認証者に未知であるにもかかわらず、ソリューションの品質の証明書が付属する。
この手法は,歩行者衝突回避シナリオや古典的な制御タスクにおいて,騒音や敵に対する堅牢性を高めることが示されている。
この研究は、新しいパフォーマンス保証、他のRLアルゴリズムの拡張、より多くのシナリオに集約された結果の拡張、逆向きの振る舞いを持つシナリオへの拡張、より計算コストの高い方法との比較、ロバストネスアルゴリズムに関する直観を提供する可視化に関する以前の研究の1つを拡張する。
関連論文リスト
- Collision Avoidance Verification of Multiagent Systems with Learned Policies [9.550601011551024]
本稿では,マルチエージェントフィードバックループ(MA-NFL)の衝突回避特性を検証するための後方到達性に基づくアプローチを提案する。
私たちは多くの不確実性を説明しており、現実のシナリオとよく一致しています。
提案アルゴリズムは,MA-NFLの衝突回避アルゴリズムを模倣するエージェントを用いて,衝突回避特性を検証できることを示す。
論文 参考訳(メタデータ) (2024-03-05T20:36:26Z) - Inter-Domain Fusion for Enhanced Intrusion Detection in Power Systems:
An Evidence Theoretic and Meta-Heuristic Approach [0.0]
ICSネットワークにおけるIDSによる不正な警告は、経済的および運用上の重大な損害をもたらす可能性がある。
本研究は,CPS電力系統における誤警報の事前分布を伴わずに不確実性に対処し,誤警報を低減する手法を提案する。
論文 参考訳(メタデータ) (2021-11-20T00:05:39Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - Scalable Synthesis of Verified Controllers in Deep Reinforcement
Learning [0.0]
高品質の安全シールドを合成できる自動検証パイプラインを提案します。
私たちの重要な洞察は、事前に計算された安全シールドを使用して神経コントローラのトレーニングを制限し、神経コントローラから安全検証を分離することを含みます。
実測的な高次元深部RLベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-04-20T19:30:29Z) - Generating Probabilistic Safety Guarantees for Neural Network
Controllers [30.34898838361206]
ダイナミクスモデルを使用して、ニューラルネットワークコントローラが安全に動作するために保持する必要がある出力プロパティを決定します。
ニューラルネットワークポリシの近似を効率的に生成するための適応的検証手法を開発した。
本手法は,航空機衝突回避ニューラルネットワークの確率的安全性を保証することができることを示す。
論文 参考訳(メタデータ) (2021-03-01T18:48:21Z) - Increasing the Confidence of Deep Neural Networks by Coverage Analysis [71.57324258813674]
本稿では、異なる安全でない入力に対してモデルを強化するために、カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。
実験結果から,提案手法は強力な対向例とアウト・オブ・ディストリビューション・インプットの両方を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2021-01-28T16:38:26Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Hidden Cost of Randomized Smoothing [72.93630656906599]
本稿では、現在のランダム化平滑化による副作用を指摘する。
具体的には,1)スムーズな分類器の決定境界が小さくなり,クラスレベルでの精度の相違が生じること,2)学習過程における雑音増強の適用は,一貫性のない学習目的による縮小問題を必ずしも解決しない,という2つの主要なポイントを具体化し,証明する。
論文 参考訳(メタデータ) (2020-03-02T23:37:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。