論文の概要: Falsification-Based Robust Adversarial Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.00691v2
- Date: Fri, 17 Jul 2020 16:29:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 00:02:27.748726
- Title: Falsification-Based Robust Adversarial Reinforcement Learning
- Title(参考訳): ファルシフィケーションに基づくロバスト対応強化学習
- Authors: Xiao Wang, Saasha Nair, and Matthias Althoff
- Abstract要約: Falsification-based RARL (FRARL) は、対人学習における時間的論理的ファルシフィケーションを統合するための最初の汎用フレームワークである。
我々は,自律走行車両のブレーキアシストシステムと適応クルーズ制御システムに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 13.467693018395863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has achieved tremendous progress in solving
various sequential decision-making problems, e.g., control tasks in robotics.
However, RL methods often fail to generalize to safety-critical scenarios since
policies are overfitted to training environments. Previously, robust
adversarial reinforcement learning (RARL) was proposed to train an adversarial
network that applies disturbances to a system, which improves robustness in
test scenarios. A drawback of neural-network-based adversaries is that
integrating system requirements without handcrafting sophisticated reward
signals is difficult. Safety falsification methods allow one to find a set of
initial conditions as well as an input sequence, such that the system violates
a given property formulated in temporal logic. In this paper, we propose
falsification-based RARL (FRARL), the first generic framework for integrating
temporal-logic falsification in adversarial learning to improve policy
robustness. With falsification method, we do not need to construct an extra
reward function for the adversary. We evaluate our approach on a braking
assistance system and an adaptive cruise control system of autonomous vehicles.
Experiments show that policies trained with a falsification-based adversary
generalize better and show less violation of the safety specification in test
scenarios than the ones trained without an adversary or with an adversarial
network.
- Abstract(参考訳): 強化学習(rl)は、ロボット工学における制御タスクなど、様々な逐次的な意思決定問題を解決する上で大きな進歩を遂げた。
しかし、ポリシーがトレーニング環境に過度に適合するため、rlメソッドは安全クリティカルなシナリオに一般化できないことが多い。
従来、システムに障害を適用し、テストシナリオの堅牢性を向上する敵ネットワークをトレーニングするために、堅牢な敵強化学習(RARL)が提案されていた。
ニューラルネットワークベースの敵の欠点は、高度な報酬信号を手作りせずにシステム要件を統合することが難しいことである。
安全性の改ざん手法は、システムが時相論理で定式化された所定のプロパティに違反するように、入力シーケンスと同様に一連の初期条件を見つけることができる。
本稿では,敵意学習における時間的論理的改ざんを統合する最初の汎用フレームワークである改ざんベースrarl(frarl)を提案する。
falsificationメソッドでは、敵に対して追加の報酬関数を構築する必要はありません。
我々は,自律走行車両のブレーキアシストシステムと適応クルーズ制御システムに対するアプローチを評価した。
実験により、偽造ベースの敵意で訓練されたポリシーは、敵意のない、あるいは敵意のあるネットワークで訓練されたポリシーよりも、テストシナリオにおける安全性仕様の違反が少ないことが示されている。
関連論文リスト
- Multi-agent Reinforcement Learning-based Network Intrusion Detection System [3.4636217357968904]
侵入検知システム(IDS)は,コンピュータネットワークのセキュリティ確保において重要な役割を担っている。
本稿では,自動,効率的,堅牢なネットワーク侵入検出が可能な,新しいマルチエージェント強化学習(RL)アーキテクチャを提案する。
我々のソリューションは、新しい攻撃の追加に対応し、既存の攻撃パターンの変更に効果的に適応するように設計されたレジリエントなアーキテクチャを導入します。
論文 参考訳(メタデータ) (2024-07-08T09:18:59Z) - Kick Bad Guys Out! Conditionally Activated Anomaly Detection in Federated Learning with Zero-Knowledge Proof Verification [22.078088272837068]
フェデレーテッド・ラーニング(FL)システムは敵の攻撃を受けやすい。
現在の防衛方式は現実世界のFLシステムでは実用的ではないことが多い。
本稿では,現実のFLシステムを対象とした新しい異常検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-06T07:09:05Z) - Approximate Model-Based Shielding for Safe Reinforcement Learning [83.55437924143615]
本稿では,学習したRLポリシーの性能を検証するための,原則的ルックアヘッド遮蔽アルゴリズムを提案する。
我々のアルゴリズムは他の遮蔽手法と異なり、システムの安全性関連力学の事前知識を必要としない。
我々は,国家依存型安全ラベルを持つアタリゲームにおいて,他の安全を意識したアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-27T15:19:45Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Robust Policy Learning over Multiple Uncertainty Sets [91.67120465453179]
強化学習(RL)エージェントは、安全クリティカルな環境の変動に対して堅牢である必要がある。
システム識別とロバストRLの両方の利点を享受するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-14T20:06:28Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Adversarial Training is Not Ready for Robot Learning [55.493354071227174]
対人訓練は,ノルム有界摂動に耐性のあるディープラーニングモデルを訓練する有効な方法である。
敵訓練により得られたニューラルコントローラが3種類の欠陥を受けることを理論的および実験的に示す。
この結果から, ロボット学習にはまだ対応できていないことが示唆された。
論文 参考訳(メタデータ) (2021-03-15T07:51:31Z) - Robust Reinforcement Learning using Adversarial Populations [118.73193330231163]
強化学習(Reinforcement Learning, RL)は、コントローラ設計に有効なツールであるが、堅牢性の問題に対処できる。
一つの逆数を使うことは、逆数の標準的なパラメトリゼーションの下での動的変動に一貫して堅牢性をもたらすわけではないことを示す。
本稿では,ロバスト RL の定式化に対する人口ベース増進法を提案する。
論文 参考訳(メタデータ) (2020-08-04T20:57:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。