論文の概要: Training Verifiably Robust Agents Using Set-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2408.09112v1
- Date: Sat, 17 Aug 2024 06:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 22:37:12.390291
- Title: Training Verifiably Robust Agents Using Set-Based Reinforcement Learning
- Title(参考訳): 集合型強化学習を用いた検証可能なロバストエージェントの訓練
- Authors: Manuel Wendl, Lukas Koller, Tobias Ladner, Matthias Althoff,
- Abstract要約: 我々は、摂動入力の集合全体を利用してニューラルネットワークを訓練し、最悪の場合の報酬を最大化する。
得られた薬剤は、関連する作業によって得られるエージェントよりも確実に堅牢であり、安全クリティカルな環境に適用できる。
- 参考スコア(独自算出の注目度): 8.217552831952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning often uses neural networks to solve complex control tasks. However, neural networks are sensitive to input perturbations, which makes their deployment in safety-critical environments challenging. This work lifts recent results from formally verifying neural networks against such disturbances to reinforcement learning in continuous state and action spaces using reachability analysis. While previous work mainly focuses on adversarial attacks for robust reinforcement learning, we train neural networks utilizing entire sets of perturbed inputs and maximize the worst-case reward. The obtained agents are verifiably more robust than agents obtained by related work, making them more applicable in safety-critical environments. This is demonstrated with an extensive empirical evaluation of four different benchmarks.
- Abstract(参考訳): 強化学習は、複雑な制御タスクを解決するためにニューラルネットワークを使用することが多い。
しかし、ニューラルネットワークは入力の摂動に敏感であり、安全クリティカルな環境への展開を困難にしている。
この研究は、そのような障害に対するニューラルネットワークの正式な検証から、到達可能性分析を用いた連続状態および行動空間における強化学習まで、最近の成果を上げたものである。
これまでの研究は主に、堅牢な強化学習のための敵攻撃に焦点を当てていたが、摂動入力の集合全体を利用してニューラルネットワークを訓練し、最悪の場合の報酬を最大化する。
得られた薬剤は、関連する作業によって得られるエージェントよりも確実に堅牢であり、安全クリティカルな環境に適用できる。
これは4つの異なるベンチマークの広範な実験的な評価で実証される。
関連論文リスト
- Set-Based Training for Neural Network Verification [8.97708612393722]
小さな入力摂動はニューラルネットワークの出力に大きな影響を与える。
安全クリティカルな環境では、入力はノイズの多いセンサーデータを含むことが多い。
我々は、堅牢なニューラルネットワークをトレーニングして正式な検証を行う、エンドツーエンドのセットベーストレーニング手順を採用している。
論文 参考訳(メタデータ) (2024-01-26T15:52:41Z) - Towards Improving Robustness Against Common Corruptions in Object
Detectors Using Adversarial Contrastive Learning [10.27974860479791]
本稿では, ニューラルネットワークの強靭性向上と, 対人攻撃と共通汚職の同時防止を目的とした, 革新的な対人的コントラスト学習フレームワークを提案する。
対戦型および実世界の条件下での性能向上に焦点を合わせることで、安全クリティカルなアプリケーションにおけるニューラルネットワークの堅牢性を高めることを目的としている。
論文 参考訳(メタデータ) (2023-11-14T06:13:52Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Building Compact and Robust Deep Neural Networks with Toeplitz Matrices [93.05076144491146]
この論文は、コンパクトで、訓練が容易で、信頼性があり、敵の例に対して堅牢なニューラルネットワークを訓練する問題に焦点を当てている。
Toeplitzファミリーの構造化行列の特性を利用して、コンパクトでセキュアなニューラルネットワークを構築する。
論文 参考訳(メタデータ) (2021-09-02T13:58:12Z) - Non-Singular Adversarial Robustness of Neural Networks [58.731070632586594]
小さな入力摂動に対する過敏性のため、アドリヤルロバスト性はニューラルネットワークにとって新たな課題となっている。
我々は,データ入力とモデル重みの共振レンズを用いて,ニューラルネットワークの非特異な対角性の概念を定式化する。
論文 参考訳(メタデータ) (2021-02-23T20:59:30Z) - Increasing the Confidence of Deep Neural Networks by Coverage Analysis [71.57324258813674]
本稿では、異なる安全でない入力に対してモデルを強化するために、カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。
実験結果から,提案手法は強力な対向例とアウト・オブ・ディストリビューション・インプットの両方を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2021-01-28T16:38:26Z) - Improving Adversarial Robustness by Enforcing Local and Global
Compactness [19.8818435601131]
敵の訓練は、広範囲の攻撃に一貫して抵抗する最も成功した方法である。
本稿では,局所的・言語的コンパクト性とクラスタリングの仮定を強制する分散分散化ネットワークを提案する。
実験の結果,提案するコンポーネントによる対人訓練の強化は,ネットワークの堅牢性をさらに向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2020-07-10T00:43:06Z) - Rethinking Clustering for Robustness [56.14672993686335]
ClusTRは、ロバストモデルを学ぶためのクラスタリングベースの、対向のないトレーニングフレームワークである。
textitClusTRは、強いPGD攻撃の下で、敵に訓練されたネットワークを最大4%上回ります。
論文 参考訳(メタデータ) (2020-06-13T16:55:51Z) - Protecting the integrity of the training procedure of neural networks [0.0]
ニューラルネットワークは、継続的に増加する多くのアプリケーションに使われます。
ニューラルネットワークの不透明さによって増加するITセキュリティの最も顕著な問題の1つは、トレーニング期間中に攻撃を害する可能性があることである。
本稿では,標準暗号機構を用いてトレーニング手順の整合性を確実に検証する手法を提案する。
論文 参考訳(メタデータ) (2020-05-14T12:57:23Z) - Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve
Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。
予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-03-02T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。