論文の概要: Falsification-Based Robust Adversarial Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.00691v3
- Date: Mon, 20 Mar 2023 06:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 08:52:39.534947
- Title: Falsification-Based Robust Adversarial Reinforcement Learning
- Title(参考訳): ファルシフィケーションに基づくロバスト対応強化学習
- Authors: Xiao Wang, Saasha Nair, and Matthias Althoff
- Abstract要約: Falsification-based RARL (FRARL) は、対人学習における時間論理のファルシフィケーションを統合するための最初の汎用フレームワークである。
実験結果から, ファルシフィケーションをベースとした対向法で訓練したポリシーは, より一般化され, テストシナリオにおける安全仕様の違反が少なくなることが示された。
- 参考スコア(独自算出の注目度): 13.467693018395863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has achieved enormous progress in solving various
sequential decision-making problems, such as control tasks in robotics. Since
policies are overfitted to training environments, RL methods have often failed
to be generalized to safety-critical test scenarios. Robust adversarial RL
(RARL) was previously proposed to train an adversarial network that applies
disturbances to a system, which improves the robustness in test scenarios.
However, an issue of neural network-based adversaries is that integrating
system requirements without handcrafting sophisticated reward signals are
difficult. Safety falsification methods allow one to find a set of initial
conditions and an input sequence, such that the system violates a given
property formulated in temporal logic. In this paper, we propose
falsification-based RARL (FRARL): this is the first generic framework for
integrating temporal logic falsification in adversarial learning to improve
policy robustness. By applying our falsification method, we do not need to
construct an extra reward function for the adversary. Moreover, we evaluate our
approach on a braking assistance system and an adaptive cruise control system
of autonomous vehicles. Our experimental results demonstrate that policies
trained with a falsification-based adversary generalize better and show less
violation of the safety specification in test scenarios than those trained
without an adversary or with an adversarial network.
- Abstract(参考訳): 強化学習(rl)はロボット工学における制御タスクなど、様々な逐次的意思決定問題を解決する上で大きな進歩を遂げた。
ポリシーはトレーニング環境に過度に適合するため、rlメソッドは安全クリティカルなテストシナリオに一般化できないことが多い。
robust adversarial rl (rarl) は以前、システムに外乱を適用する敵ネットワークを訓練するために提案され、テストシナリオのロバスト性が向上した。
しかし、ニューラルネットワークベースの敵の問題は、高度な報酬信号を手作りせずにシステム要件を統合することが難しいことである。
安全ファルシフィケーション法では、システムに時間論理で定式化された特定の性質に違反するような初期条件と入力シーケンスのセットを見つけることができる。
本稿では,falsification-based rarl (frarl)を提案する。これは,政策の堅牢性を改善するために,敵学習に時相論理の改ざんを統合するための最初の汎用フレームワークである。
偽造手法を適用することで、敵に対して追加の報酬関数を構築する必要がなくなる。
さらに, 自律走行車両の制動支援システムと適応クルーズ制御システムに対するアプローチを評価した。
実験結果から, ファルシフィケーションベースでトレーニングした政策は, テストシナリオにおける安全仕様の違反が, 相手や敵ネットワークでトレーニングした政策よりも少ないことを示す。
関連論文リスト
- Multi-agent Reinforcement Learning-based Network Intrusion Detection System [3.4636217357968904]
侵入検知システム(IDS)は,コンピュータネットワークのセキュリティ確保において重要な役割を担っている。
本稿では,自動,効率的,堅牢なネットワーク侵入検出が可能な,新しいマルチエージェント強化学習(RL)アーキテクチャを提案する。
我々のソリューションは、新しい攻撃の追加に対応し、既存の攻撃パターンの変更に効果的に適応するように設計されたレジリエントなアーキテクチャを導入します。
論文 参考訳(メタデータ) (2024-07-08T09:18:59Z) - Kick Bad Guys Out! Conditionally Activated Anomaly Detection in Federated Learning with Zero-Knowledge Proof Verification [22.078088272837068]
フェデレーテッド・ラーニング(FL)システムは敵の攻撃を受けやすい。
現在の防衛方式は現実世界のFLシステムでは実用的ではないことが多い。
本稿では,現実のFLシステムを対象とした新しい異常検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T07:09:05Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Adversarial Training is Not Ready for Robot Learning [55.493354071227174]
対人訓練は,ノルム有界摂動に耐性のあるディープラーニングモデルを訓練する有効な方法である。
敵訓練により得られたニューラルコントローラが3種類の欠陥を受けることを理論的および実験的に示す。
この結果から, ロボット学習にはまだ対応できていないことが示唆された。
論文 参考訳(メタデータ) (2021-03-15T07:51:31Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。