論文の概要: Probabilistic Perspectives on Error Minimization in Adversarial Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.04724v2
- Date: Sun, 06 Oct 2024 14:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:41:57.780060
- Title: Probabilistic Perspectives on Error Minimization in Adversarial Reinforcement Learning
- Title(参考訳): 対向強化学習における誤り最小化の確率論的視点
- Authors: Roman Belaire, Arunesh Sinha, Pradeep Varakantham,
- Abstract要約: 自動運転車は、交通標識に関する感覚入力が敵によって操作される場合、破滅的な結果をもたらす可能性がある。
このような状況における中核的な課題は、環境の真の状態は、このような敵の操作によって部分的にしか観察できないことである。
本稿では,その根底にある真の状態についての信念に基づいて定義された,ACoE(Adversarial Counterfactual Error)という新たな目標を提案する。
- 参考スコア(独自算出の注目度): 18.044879441434432
- License:
- Abstract: Deep Reinforcement Learning (DRL) policies are highly susceptible to adversarial noise in observations, which poses significant risks in safety-critical scenarios. For instance, a self-driving car could experience catastrophic consequences if its sensory inputs about traffic signs are manipulated by an adversary. The core challenge in such situations is that the true state of the environment becomes only partially observable due to these adversarial manipulations. Two key strategies have so far been employed in the literature; the first set of methods focuses on increasing the likelihood that nearby states--those close to the true state--share the same robust actions. The second set of approaches maximize the value for the worst possible true state within the range of adversarially perturbed observations. Although these approaches provide strong robustness against attacks, they tend to be either overly conservative or not generalizable. We hypothesize that the shortcomings of these approaches stem from their failure to explicitly account for partial observability. By making decisions that directly consider this partial knowledge of the true state, we believe it is possible to achieve a better balance between robustness and performance, particularly in adversarial settings. To achieve this, we introduce a novel objective called Adversarial Counterfactual Error (ACoE), which is defined on the beliefs about the underlying true state and naturally balances value optimization with robustness against adversarial attacks, and a theoretically-grounded, scalable surrogate objective Cumulative-ACoE (C-ACoE). Our empirical evaluations demonstrate that our method significantly outperforms current state-of-the-art approaches for addressing adversarial RL challenges, offering a promising direction for better DRL under adversarial conditions.
- Abstract(参考訳): 深層強化学習(Dep Reinforcement Learning, DRL)政策は、観測における敵のノイズに非常に敏感であり、安全クリティカルなシナリオに重大なリスクをもたらす。
例えば、自動運転車は、交通標識に関する感覚入力が敵によって操作される場合、破滅的な結果をもたらす可能性がある。
このような状況における中核的な課題は、環境の真の状態は、このような敵の操作によって部分的にしか観察できないことである。
文献にはこれまで2つの重要な戦略が採用されてきたが、最初の一連の手法は、近隣の州 ― 真の状態に近い ― が、同じ堅牢な行動を共有する可能性を高めることに焦点を当てている。
第2のアプローチの集合は、逆摂動観測範囲内の最悪の真状態の値を最大化する。
これらのアプローチは攻撃に対して強い堅牢性を提供するが、過度に保守的であるか、一般化できない傾向にある。
これらのアプローチの欠点は、部分的な可観測性を明示的に説明できないことに起因すると仮定する。
真の状態のこの部分的な知識を直接的に考慮する決定を行うことで、特に敵の設定において、堅牢性とパフォーマンスのバランスを良くすることが可能になると信じています。
これを実現するために,本論文では,根底にある真の状態に対する信念に基づいて定義され,対人攻撃に対するロバスト性と値最適化の自然なバランスをとる,Adversarial Counterfactual Error (ACoE) という新たな目標と,理論的に座屈した拡張可能なCumulative-ACoE (C-ACoE) を提案する。
実験により,本手法は対向RL課題に対処するための最先端手法よりも優れており,対向条件下でのDRL向上に向けた有望な方向性を提供する。
関連論文リスト
- Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - FREA: Feasibility-Guided Generation of Safety-Critical Scenarios with Reasonable Adversariality [13.240598841087841]
本稿では,AVのLF(Largest Feasible Region)をガイダンスとして組み込んだ新しい安全クリティカルシナリオ生成手法FREAを紹介する。
実験では、FREAが安全クリティカルなシナリオを効果的に生成し、ほぼミスに近い事象を引き起こすことが示されている。
論文 参考訳(メタデータ) (2024-06-05T06:26:15Z) - Belief-Enriched Pessimistic Q-Learning against Adversarial State
Perturbations [5.076419064097735]
近年の研究では、十分に訓練されたRL剤は、試験段階における状態観察を戦略的に摂動させることで容易に操作できることが示されている。
既存のソリューションは、摂動に対する訓練されたポリシーの滑らかさを改善するために正規化用語を導入するか、代わりにエージェントのポリシーと攻撃者のポリシーを訓練する。
本稿では,エージェントの真の状態に対する不確実性を保護するための悲観的ポリシーを導出する,新しいロバストなRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T20:52:49Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Regret-Based Defense in Adversarial Reinforcement Learning [14.671837627588294]
敵の騒音は、安全クリティカルな環境において悲惨な結果をもたらす可能性がある。
既存のRLアルゴリズムを観測摂動敵に堅牢にするためのアプローチは、リアクティブアプローチに重点を置いている。
我々は、受信した「観測」に対する観察の「隣人」に対する最大の後悔を最小限に抑える、原則化されたアプローチを提供する。
論文 参考訳(メタデータ) (2023-02-14T08:56:50Z) - Towards Safe Reinforcement Learning via Constraining Conditional
Value-at-Risk [30.229387511344456]
本稿では,CVaR を所定の閾値以下に保ち,リスクに敏感な制約付き最適化問題を定式化する CVaR-Proximal-Policy-Optimization (CPPO) の新たな強化学習アルゴリズムを提案する。
実験の結果,CPPOは高い累積報酬を達成し,観察および遷移障害に対してより堅牢であることがわかった。
論文 参考訳(メタデータ) (2022-06-09T11:57:54Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Adversary Agnostic Robust Deep Reinforcement Learning [23.9114110755044]
深層強化学習政策は、訓練中の摂動によって着想される。
以前のアプローチでは、訓練プロセスに敵の知識を追加することができると仮定していた。
本稿では,敵からの学習を必要としない頑健なDRLパラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-14T06:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。