論文の概要: ARC: Adversarially Robust Control Policies for Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2107.04487v1
- Date: Fri, 9 Jul 2021 15:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:52:19.514786
- Title: ARC: Adversarially Robust Control Policies for Autonomous Vehicles
- Title(参考訳): ARC: 自動運転車の対向的ロバスト制御
- Authors: Sampo Kuutti, Saber Fallah, Richard Bowden
- Abstract要約: 本稿では, 対人ロバスト制御 (ARC) を導入し, 同じ損失に対して, 対人政策と対人政策を終末的に訓練する。
敵のアンサンブルに対して主人公を訓練することで、より堅牢な制御ポリシーを学ぶ。
このアプローチは、当初の方針と比較して、新しい敵に対する衝突の回数を90.25%まで減少させることが示されている。
- 参考スコア(独自算出の注目度): 42.57240271305088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have demonstrated their capability to learn control
policies for a variety of tasks. However, these neural network-based policies
have been shown to be susceptible to exploitation by adversarial agents.
Therefore, there is a need to develop techniques to learn control policies that
are robust against adversaries. We introduce Adversarially Robust Control
(ARC), which trains the protagonist policy and the adversarial policy
end-to-end on the same loss. The aim of the protagonist is to maximise this
loss, whilst the adversary is attempting to minimise it. We demonstrate the
proposed ARC training in a highway driving scenario, where the protagonist
controls the follower vehicle whilst the adversary controls the lead vehicle.
By training the protagonist against an ensemble of adversaries, it learns a
significantly more robust control policy, which generalises to a variety of
adversarial strategies. The approach is shown to reduce the amount of
collisions against new adversaries by up to 90.25%, compared to the original
policy. Moreover, by utilising an auxiliary distillation loss, we show that the
fine-tuned control policy shows no drop in performance across its original
training distribution.
- Abstract(参考訳): ディープニューラルネットワークは、さまざまなタスクの制御ポリシを学習する能力を示している。
しかしながら、これらのニューラルネットワークベースのポリシーは、敵エージェントによる搾取に影響を受けやすいことが示されている。
したがって、敵に対して堅牢な制御ポリシーを学ぶための技術を開発する必要がある。
本稿では, 対人ロバスト制御(ARC)を導入し, 同じ損失に対して, 対人政策と対人政策を訓練する。
主人公の目的は、敵が最小化しようとしている間、この損失を最大化することである。
提案したARCトレーニングを高速道路走行シナリオで実演し、敵が先頭車両を制御している間に追従者が追従車両を制御する。
敵のアンサンブルに対して主人公を訓練することにより、敵の戦略を一般化する、はるかに堅牢な制御ポリシーを学ぶ。
このアプローチは、当初の方針と比較して、新しい敵に対する衝突の回数を90.25%まで減少させることが示されている。
また, 補助蒸留損失を利用することにより, 微調整制御方針は, 元のトレーニング分布をまたいだ性能低下を示さないことを示した。
関連論文リスト
- Robust Driving Policy Learning with Guided Meta Reinforcement Learning [49.860391298275616]
本稿では,ソーシャルカーの多種多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。
ソーシャルカーのインタラクションに基づく報酬関数をランダム化することにより、多様な目的を生み出し、メタ政治を効率的に訓練することができる。
本研究では,社会自動車が学習メタ政治によって制御される環境を利用して,エゴ自動車の運転方針の堅牢性を高めるためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-19T17:42:36Z) - Rethinking Adversarial Policies: A Generalized Attack Formulation and
Provable Defense in RL [46.32591437241358]
本稿では、訓練された被害者エージェントが他のエージェントを制御する攻撃者によって悪用されるマルチエージェント設定について考察する。
以前のモデルでは、攻撃者が$alpha$に対する部分的な制御しか持たない可能性や、攻撃が容易に検出可能な"異常"な振る舞いを生じさせる可能性を考慮していない。
我々は、敵がエージェントをどの程度制御できるかをモデル化する柔軟性を持つ汎用攻撃フレームワークを導入する。
我々は、時間的分離を伴う敵の訓練を通じて、最も堅牢な被害者政策への収束を証明可能な効率のよい防御を提供する。
論文 参考訳(メタデータ) (2023-05-27T02:54:07Z) - Toward Evaluating Robustness of Reinforcement Learning with Adversarial Policy [32.1138935956272]
強化学習エージェントは、デプロイ中に回避攻撃を受けやすい。
本稿では,効率的なブラックボックス対応政策学習のための本質的なモチベーション付き適応政策(IMAP)を提案する。
論文 参考訳(メタデータ) (2023-05-04T07:24:12Z) - Imitating Opponent to Win: Adversarial Policy Imitation Learning in
Two-player Competitive Games [0.0]
敵エージェントが採用する敵ポリシーは、ターゲットRLエージェントに影響を及ぼし、マルチエージェント環境では性能が良くない。
既存の研究では、被害者エージェントと対話した経験に基づいて、敵の政策を直接訓練している。
我々は、この欠点を克服する、新しい効果的な対人政策学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-10-30T18:32:02Z) - Attacking and Defending Deep Reinforcement Learning Policies [3.6985039575807246]
本研究では, DRL ポリシーのロバストな最適化の観点から, 敵攻撃に対するロバスト性について検討する。
本稿では,環境との相互作用を伴わずにポリシーの戻りを最小化しようとする欲求攻撃アルゴリズムと,最大限の形式で敵の訓練を行う防衛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:47:54Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Training Adversarial Agents to Exploit Weaknesses in Deep Control
Policies [47.08581439933752]
対戦型強化学習に基づく自動ブラックボックステストフレームワークを提案する。
提案手法は, オンラインテストにおいて明らかでないコントロールポリシの両方において, 弱点を見出すことができることを示す。
論文 参考訳(メタデータ) (2020-02-27T13:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。