論文の概要: Sharpening the Spear: Adaptive Expert-Guided Adversarial Attack Against DRL-based Autonomous Driving Policies
- arxiv url: http://arxiv.org/abs/2506.18304v1
- Date: Mon, 23 Jun 2025 05:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.868123
- Title: Sharpening the Spear: Adaptive Expert-Guided Adversarial Attack Against DRL-based Autonomous Driving Policies
- Title(参考訳): アダプティブ・エキスパート・ガイドによるDRLによる自律運転法に対する敵対的攻撃
- Authors: Junchao Fan, Xuyang Lei, Xiaolin Chang,
- Abstract要約: 深部強化学習(DRL)は自動運転のための有望なパラダイムとして浮上している。
DRLベースの政策は、敵の攻撃に対して非常に脆弱であり、現実世界の展開において深刻な安全リスクを生じさせる。
本稿では,攻撃政策訓練の安定性と効率性を両立させる適応的専門家誘導型敵攻撃法を提案する。
- 参考スコア(独自算出の注目度): 3.5120264792560993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has emerged as a promising paradigm for autonomous driving. However, despite their advanced capabilities, DRL-based policies remain highly vulnerable to adversarial attacks, posing serious safety risks in real-world deployments. Investigating such attacks is crucial for revealing policy vulnerabilities and guiding the development of more robust autonomous systems. While prior attack methods have made notable progress, they still face several challenges: 1) they often rely on high-frequency attacks, yet critical attack opportunities are typically context-dependent and temporally sparse, resulting in inefficient attack patterns; 2) restricting attack frequency can improve efficiency but often results in unstable training due to the adversary's limited exploration. To address these challenges, we propose an adaptive expert-guided adversarial attack method that enhances both the stability and efficiency of attack policy training. Our method first derives an expert policy from successful attack demonstrations using imitation learning, strengthened by an ensemble Mixture-of-Experts architecture for robust generalization across scenarios. This expert policy then guides a DRL-based adversary through a KL-divergence regularization term. Due to the diversity of scenarios, expert policies may be imperfect. To address this, we further introduce a performance-aware annealing strategy that gradually reduces reliance on the expert as the adversary improves. Extensive experiments demonstrate that our method achieves outperforms existing approaches in terms of collision rate, attack efficiency, and training stability, especially in cases where the expert policy is sub-optimal.
- Abstract(参考訳): 深部強化学習(DRL)は自動運転のための有望なパラダイムとして浮上している。
しかし、DRLベースの政策は高度な能力にもかかわらず、敵の攻撃に対して非常に脆弱であり、現実世界の展開において深刻な安全リスクを生じさせる。
このような攻撃を調査することは、政策上の脆弱性を明らかにし、より堅牢な自律システムの開発を導くために不可欠である。
以前の攻撃方法は目覚ましい進歩を遂げてきたが、それでもいくつかの課題に直面している。
1) 高頻度攻撃に頼っていることが多いが、重要な攻撃機会は通常、文脈に依存し、時間的に疎いため、非効率な攻撃パターンが生じる。
2) 攻撃頻度の制限は効率を向上させるが, 敵の探索に制限があるため, 不安定な訓練がしばしば行われる。
これらの課題に対処するために,攻撃政策訓練の安定性と効率性を両立させる適応的専門家誘導型敵攻撃法を提案する。
提案手法はまず,シナリオ間の堅牢な一般化を目的としたアンサンブル・オブ・エキスパートアーキテクチャにより強化された模倣学習を用いた攻撃実証の成功から,専門家の方針を導出する。
この専門家ポリシーはその後、KL分割正規化項を通じてDRLベースの敵を導く。
シナリオの多様性のため、専門家のポリシーは不完全かもしれません。
この問題に対処するため、敵が改善するにつれて、専門家への依存を徐々に減らし、パフォーマンスに配慮したアニーリング戦略を導入する。
本手法は, 衝突速度, 攻撃効率, 訓練安定性の面で, 特に専門家方針が準最適である場合において, 既存の手法よりも優れることを示す。
関連論文リスト
- Target Defense with Multiple Defenders and an Agile Attacker via Residual Policy Learning [0.918715978278858]
この手紙は、攻撃者がディフェンダーよりもアジャイルである、特に困難なシナリオに焦点を当てている。
深層強化学習と力に基づくボイドモデルを統合した新しい残留政策枠組みを提案する。
この枠組みでは、ボイドモデルは基本方針として機能し、DRLは防御者の行動を洗練し最適化するための残留ポリシーを学習する。
論文 参考訳(メタデータ) (2025-02-25T16:05:33Z) - Less is More: A Stealthy and Efficient Adversarial Attack Method for DRL-based Autonomous Driving Policies [2.9965913883475137]
DRLに基づく自律運転ポリシーに対するステルスで効率的な敵攻撃手法を提案する。
我々は、ドメイン知識のない重要な瞬間に攻撃するための最適なポリシーを学ぶために、敵を訓練する。
本手法は3回の攻撃で90%以上の衝突率を達成する。
論文 参考訳(メタデータ) (2024-12-04T06:11:09Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Robust Deep Reinforcement Learning Through Adversarial Attacks and Training : A Survey [8.1138182541639]
Deep Reinforcement Learning (DRL)は、複雑な環境を横断してシーケンシャルなアクションをとる自律エージェントを訓練するための機械学習のサブフィールドである。
微妙な条件の変化の影響を受けながらも、現実のアプリケーションにおける信頼性への懸念を高めている。
DRLのロバスト性向上手法として, 環境条件の未知の変化と摂動の可能性について考察する。
論文 参考訳(メタデータ) (2024-03-01T10:16:46Z) - Embodied Laser Attack:Leveraging Scene Priors to Achieve Agent-based Robust Non-contact Attacks [13.726534285661717]
本稿では,非接触レーザー攻撃を動的に調整する新しい枠組みであるEmbodied Laser Attack (ELA)を紹介する。
認識モジュールのために,ERAは交通シーンの本質的な事前知識に基づいて,局所的な視点変換ネットワークを革新的に開発してきた。
決定と制御モジュールのために、ERAは時間を要するアルゴリズムを採用する代わりに、データ駆動の強化学習で攻撃エージェントを訓練する。
論文 参考訳(メタデータ) (2023-12-15T06:16:17Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Attacking and Defending Deep Reinforcement Learning Policies [3.6985039575807246]
本研究では, DRL ポリシーのロバストな最適化の観点から, 敵攻撃に対するロバスト性について検討する。
本稿では,環境との相互作用を伴わずにポリシーの戻りを最小化しようとする欲求攻撃アルゴリズムと,最大限の形式で敵の訓練を行う防衛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:47:54Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Guided Adversarial Attack for Evaluating and Enhancing Adversarial
Defenses [59.58128343334556]
我々は、より適切な勾配方向を見つけ、攻撃効果を高め、より効率的な対人訓練をもたらす標準損失に緩和項を導入する。
本稿では, クリーン画像の関数マッピングを用いて, 敵生成を誘導するGAMA ( Guided Adversarial Margin Attack) を提案する。
また,一段防衛における最先端性能を実現するためのGAT ( Guided Adversarial Training) を提案する。
論文 参考訳(メタデータ) (2020-11-30T16:39:39Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。