論文の概要: Sparse Threats, Focused Defense: Criticality-Aware Robust Reinforcement Learning for Safe Autonomous Driving
- arxiv url: http://arxiv.org/abs/2601.01800v1
- Date: Mon, 05 Jan 2026 05:20:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.770531
- Title: Sparse Threats, Focused Defense: Criticality-Aware Robust Reinforcement Learning for Safe Autonomous Driving
- Title(参考訳): Sparse Threats, Focused Defense: 安全自動運転のためのクリティカル・アウェアロバスト強化学習
- Authors: Qi Wei, Junchao Fan, Zhao Yang, Jianhua Wang, Jingkai Mao, Xiaolin Chang,
- Abstract要約: 本稿では、自律運転におけるスパースかつ安全クリティカルなリスクに対処するために、臨界対応ロバストRL(CARRL)を導入する。
CARRLは2つの相互作用成分からなる: リスク露光敵 (REA) とリスクターゲット型ロバストエージェント (RTRA) である。
提案手法は,最先端のベースライン法と比較して,全症例で少なくとも22.66%の衝突率を減少させることを示す。
- 参考スコア(独自算出の注目度): 11.62520853262219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has shown considerable potential in autonomous driving (AD), yet its vulnerability to perturbations remains a critical barrier to real-world deployment. As a primary countermeasure, adversarial training improves policy robustness by training the AD agent in the presence of an adversary that deliberately introduces perturbations. Existing approaches typically model the interaction as a zero-sum game with continuous attacks. However, such designs overlook the inherent asymmetry between the agent and the adversary and then fail to reflect the sparsity of safety-critical risks, rendering the achieved robustness inadequate for practical AD scenarios. To address these limitations, we introduce criticality-aware robust RL (CARRL), a novel adversarial training approach for handling sparse, safety-critical risks in autonomous driving. CARRL consists of two interacting components: a risk exposure adversary (REA) and a risk-targeted robust agent (RTRA). We model the interaction between the REA and RTRA as a general-sum game, allowing the REA to focus on exposing safety-critical failures (e.g., collisions) while the RTRA learns to balance safety with driving efficiency. The REA employs a decoupled optimization mechanism to better identify and exploit sparse safety-critical moments under a constrained budget. However, such focused attacks inevitably result in a scarcity of adversarial data. The RTRA copes with this scarcity by jointly leveraging benign and adversarial experiences via a dual replay buffer and enforces policy consistency under perturbations to stabilize behavior. Experimental results demonstrate that our approach reduces the collision rate by at least 22.66\% across all cases compared to state-of-the-art baseline methods.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、自律走行(AD)においてかなりの可能性を示しているが、その摂動に対する脆弱性は、現実世界の展開にとって重要な障壁である。
主な対策として、敵の訓練は、意図的に摂動を導入する敵の存在下でADエージェントを訓練することで、政策の堅牢性を向上させる。
既存のアプローチは、通常、連続攻撃を伴うゼロサムゲームとして相互作用をモデル化する。
しかし、このような設計はエージェントと敵の固有の非対称性を見落とし、安全クリティカルなリスクの空間性を反映せず、現実的なADシナリオで達成されたロバスト性は不十分である。
これらの制約に対処するために,我々は,自律運転におけるスパースかつ安全クリティカルなリスクを扱うための新たな対人訓練アプローチである,臨界対応ロバストRL(CARRL)を導入する。
CARRLは、リスク露光敵(REA)とリスクターゲットロバストエージェント(RTRA)の2つの相互作用成分から構成される。
我々は、REAとRTRAの相互作用を汎用ゲームとしてモデル化し、RTRAが安全性と運転効率のバランスをとることを学習している間に、REAが安全クリティカルな障害(例えば衝突)を露呈することに集中できるようにする。
REAは、制約された予算の下で、スパースセーフクリティカルな瞬間をよりよく識別し、活用するために、分離された最適化メカニズムを採用している。
しかし、このような集中攻撃は必然的に敵データの不足をもたらす。
RTRAはこの不足に対処するため、二重再生バッファを通じて良性および敵対的な経験を共同で活用し、摂動下でポリシーの整合性を適用して行動の安定化を図る。
実験により, 本手法は, 最先端のベースライン法と比較して, 衝突速度を少なくとも22.66 %削減することを示した。
関連論文リスト
- UACER: An Uncertainty-Aware Critic Ensemble Framework for Robust Adversarial Reinforcement Learning [15.028168889991795]
頑健な対人強化学習(UACER)のための新しいアプローチである不確実性に配慮した批判アンサンブルを提案する。
本稿では,頑健な対人強化学習(UACER)のための新しいアプローチ,不確実性に配慮した批判アンサンブルを提案する。
論文 参考訳(メタデータ) (2025-12-11T10:14:13Z) - Controllable risk scenario generation from human crash data for autonomous vehicle testing [13.3074428571403]
制御可能なリスクエージェント生成(CRAG)は、支配的な名目的行動と稀な安全クリティカルな行動のモデリングを統合するために設計されたフレームワークである。
CRAGは、正常およびリスク関連挙動を歪め、限られたクラッシュデータの効率的な利用を可能にする構造付き潜在空間を構築する。
論文 参考訳(メタデータ) (2025-11-27T04:53:18Z) - Robust Driving Control for Autonomous Vehicles: An Intelligent General-sum Constrained Adversarial Reinforcement Learning Approach [56.34189898996741]
本稿では,戦略目標の敵とロバストな駆動エージェントからなる,新しいロバストな自律運転手法を提案する。
IGCARLは、最先端の手法よりも成功率を少なくとも27.9%向上させ、敵の攻撃に対して優れた堅牢性を示す。
論文 参考訳(メタデータ) (2025-10-10T06:21:36Z) - RADE: Learning Risk-Adjustable Driving Environment via Multi-Agent Conditional Diffusion [17.46462636610847]
リスク・ドライビング・環境(RADE)は、統計的に現実的でリスク調整可能な交通シーンを生成するシミュレーション・フレームワークである。
RADEはデータから直接リスク条件の行動を学び、コントロール可能なリスクレベルと自然主義的なマルチエージェントインタラクションを保存する。
RADEを実世界のrounDデータセットで検証し、様々なリスクレベルにわたって統計的リアリズムを保存することを示した。
論文 参考訳(メタデータ) (2025-05-06T04:41:20Z) - On Minimizing Adversarial Counterfactual Error in Adversarial RL [18.044879441434432]
敵の騒音は、安全クリティカルなシナリオにおいて重大なリスクを生じさせる。
我々は,ACoE(Adversarial Counterfactual Error)と呼ばれる新しい目標を導入する。
本手法は, 対向RL問題に対処するための最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-07T08:14:24Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Seeing is not Believing: Robust Reinforcement Learning against Spurious
Correlation [57.351098530477124]
国家の異なる部分には、保存されていない共同設立者が引き起こす相関関係が存在しない。
このような役に立たないあるいは有害な相関を学習するモデルは、テストケースの共同創設者がトレーニングケースから逸脱したときに破滅的に失敗する可能性がある。
したがって、単純かつ非構造的な不確実性集合を仮定する既存の頑健なアルゴリズムは、この問題に対処するには不十分である。
論文 参考訳(メタデータ) (2023-07-15T23:53:37Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - SAAC: Safe Reinforcement Learning as an Adversarial Game of
Actor-Critics [11.132587007566329]
そこで我々は,SAACと呼ばれるソフトアクター批判フレームワークを開発した。
SAACでは、RLエージェントが制約値関数の最大化を目標として、安全制約を破ることを目的としている。
安全性の制約を満たすために,SAACはより早く収束し,効率が良く,障害が少なくなることを示す。
論文 参考訳(メタデータ) (2022-04-20T12:32:33Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。