Fugu-MT 論文翻訳(概要): Probabilistic Perspectives on Error Minimization in Adversarial Reinforcement Learning

論文の概要: Probabilistic Perspectives on Error Minimization in Adversarial Reinforcement Learning

arxiv url: http://arxiv.org/abs/2406.04724v2
Date: Sun, 06 Oct 2024 14:00:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 17:43:11.77331
Title: Probabilistic Perspectives on Error Minimization in Adversarial Reinforcement Learning
Title（参考訳）: 対向強化学習における誤り最小化の確率論的視点
Authors: Roman Belaire, Arunesh Sinha, Pradeep Varakantham,
Abstract要約: 自動運転車は、交通標識に関する感覚入力が敵によって操作される場合、破滅的な結果をもたらす可能性がある。このような状況における中核的な課題は、環境の真の状態は、このような敵の操作によって部分的にしか観察できないことである。本稿では,その根底にある真の状態についての信念に基づいて定義された,ACoE(Adversarial Counterfactual Error)という新たな目標を提案する。
参考スコア（独自算出の注目度）: 18.044879441434432
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep Reinforcement Learning (DRL) policies are highly susceptible to adversarial noise in observations, which poses significant risks in safety-critical scenarios. For instance, a self-driving car could experience catastrophic consequences if its sensory inputs about traffic signs are manipulated by an adversary. The core challenge in such situations is that the true state of the environment becomes only partially observable due to these adversarial manipulations. Two key strategies have so far been employed in the literature; the first set of methods focuses on increasing the likelihood that nearby states--those close to the true state--share the same robust actions. The second set of approaches maximize the value for the worst possible true state within the range of adversarially perturbed observations. Although these approaches provide strong robustness against attacks, they tend to be either overly conservative or not generalizable. We hypothesize that the shortcomings of these approaches stem from their failure to explicitly account for partial observability. By making decisions that directly consider this partial knowledge of the true state, we believe it is possible to achieve a better balance between robustness and performance, particularly in adversarial settings. To achieve this, we introduce a novel objective called Adversarial Counterfactual Error (ACoE), which is defined on the beliefs about the underlying true state and naturally balances value optimization with robustness against adversarial attacks, and a theoretically-grounded, scalable surrogate objective Cumulative-ACoE (C-ACoE). Our empirical evaluations demonstrate that our method significantly outperforms current state-of-the-art approaches for addressing adversarial RL challenges, offering a promising direction for better DRL under adversarial conditions.
Abstract（参考訳）: 深層強化学習(Dep Reinforcement Learning, DRL)政策は、観測における敵のノイズに非常に敏感であり、安全クリティカルなシナリオに重大なリスクをもたらす。例えば、自動運転車は、交通標識に関する感覚入力が敵によって操作される場合、破滅的な結果をもたらす可能性がある。このような状況における中核的な課題は、環境の真の状態は、このような敵の操作によって部分的にしか観察できないことである。文献にはこれまで2つの重要な戦略が採用されてきたが、最初の一連の手法は、近隣の州 ― 真の状態に近い ― が、同じ堅牢な行動を共有する可能性を高めることに焦点を当てている。第2のアプローチの集合は、逆摂動観測範囲内の最悪の真状態の値を最大化する。これらのアプローチは攻撃に対して強い堅牢性を提供するが、過度に保守的であるか、一般化できない傾向にある。これらのアプローチの欠点は、部分的な可観測性を明示的に説明できないことに起因すると仮定する。真の状態のこの部分的な知識を直接的に考慮する決定を行うことで、特に敵の設定において、堅牢性とパフォーマンスのバランスを良くすることが可能になると信じています。これを実現するために,本論文では,根底にある真の状態に対する信念に基づいて定義され,対人攻撃に対するロバスト性と値最適化の自然なバランスをとる,Adversarial Counterfactual Error (ACoE) という新たな目標と,理論的に座屈した拡張可能なCumulative-ACoE (C-ACoE) を提案する。実験により,本手法は対向RL課題に対処するための最先端手法よりも優れており,対向条件下でのDRL向上に向けた有望な方向性を提供する。

関連論文リスト

Curriculum-Guided Antifragile Reinforcement Learning for Secure UAV Deconfliction under Observation-Space Attacks [6.367978467906828]
強化学習政策は、観測空間における敵の攻撃に対して脆弱である。本稿では,段階的対向摂動のカリキュラムに適応するために設計された反フレジブルなRLフレームワークを提案する。その結果, 反フランジ政策は標準およびロバストなRLベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2025-06-26T10:10:41Z)
State-Aware Perturbation Optimization for Robust Deep Reinforcement Learning [11.807055530003899]
摂動ステルスネスと状態訪問分散を最適化するために,STARと命名された選択的状態認識強化敵攻撃法を提案する。情報理論最適化の目的を取り入れ、摂動、環境状態、被害者の行動の相互情報を最大化し、分散した状態・視線分布を確保する。実験により、STARは最先端のベンチマークより優れていることが示された。
論文参考訳（メタデータ） (2025-03-26T15:00:07Z)
Towards Optimal Adversarial Robust Reinforcement Learning with Infinity Measurement Error [9.473089575932375]
近年の研究は、国家の敵対的堅牢性を達成する上での課題を浮き彫りにしている。内向的状態適応型マルコフ決定プロセス(ISA-MDP)について紹介する。 DRLの堅牢性の向上は自然環境における性能を損なうものではないことを示す。
論文参考訳（メタデータ） (2025-02-23T22:16:01Z)
Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文参考訳（メタデータ） (2024-09-26T21:00:45Z)
FREA: Feasibility-Guided Generation of Safety-Critical Scenarios with Reasonable Adversariality [13.240598841087841]
本稿では,AVのLF(Largest Feasible Region)をガイダンスとして組み込んだ新しい安全クリティカルシナリオ生成手法FREAを紹介する。実験では、FREAが安全クリティカルなシナリオを効果的に生成し、ほぼミスに近い事象を引き起こすことが示されている。
論文参考訳（メタデータ） (2024-06-05T06:26:15Z)
STBA: Towards Evaluating the Robustness of DNNs for Query-Limited Black-box Scenario [50.37501379058119]
本研究では,クエリ制限シナリオにおいて,悪意のある逆の例を作成するために,空間変換ブラックボックス攻撃(STBA)を提案する。そこで本研究では,STBAが対向例の認識不能性を効果的に改善し,クエリ制限条件下での攻撃成功率を大幅に向上できることを示す。
論文参考訳（メタデータ） (2024-03-30T13:28:53Z)
Belief-Enriched Pessimistic Q-Learning against Adversarial State Perturbations [5.076419064097735]
近年の研究では、十分に訓練されたRL剤は、試験段階における状態観察を戦略的に摂動させることで容易に操作できることが示されている。既存のソリューションは、摂動に対する訓練されたポリシーの滑らかさを改善するために正規化用語を導入するか、代わりにエージェントのポリシーと攻撃者のポリシーを訓練する。本稿では,エージェントの真の状態に対する不確実性を保護するための悲観的ポリシーを導出する,新しいロバストなRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-06T20:52:49Z)
SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文参考訳（メタデータ） (2023-12-31T04:14:43Z)
Robust Multi-Agent Reinforcement Learning via Adversarial Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。 MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文参考訳（メタデータ） (2023-10-16T20:14:06Z)
Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。 Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文参考訳（メタデータ） (2023-07-25T16:49:54Z)
Hallucinated Adversarial Control for Conservative Offline Policy Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文参考訳（メタデータ） (2023-03-02T08:57:35Z)
Regret-Based Defense in Adversarial Reinforcement Learning [14.671837627588294]
敵の騒音は、安全クリティカルな環境において悲惨な結果をもたらす可能性がある。既存のRLアルゴリズムを観測摂動敵に堅牢にするためのアプローチは、リアクティブアプローチに重点を置いている。我々は、受信した「観測」に対する観察の「隣人」に対する最大の後悔を最小限に抑える、原則化されたアプローチを提供する。
論文参考訳（メタデータ） (2023-02-14T08:56:50Z)
Towards Safe Reinforcement Learning via Constraining Conditional Value-at-Risk [30.229387511344456]
本稿では,CVaR を所定の閾値以下に保ち,リスクに敏感な制約付き最適化問題を定式化する CVaR-Proximal-Policy-Optimization (CPPO) の新たな強化学習アルゴリズムを提案する。実験の結果,CPPOは高い累積報酬を達成し,観察および遷移障害に対してより堅牢であることがわかった。
論文参考訳（メタデータ） (2022-06-09T11:57:54Z)
Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文参考訳（メタデータ） (2021-06-21T21:42:08Z)
Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文参考訳（メタデータ） (2021-06-17T14:23:54Z)
Robust Reinforcement Learning on State Observations with Learned Optimal Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。 DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文参考訳（メタデータ） (2021-01-21T05:38:52Z)
Adversary Agnostic Robust Deep Reinforcement Learning [23.9114110755044]
深層強化学習政策は、訓練中の摂動によって着想される。以前のアプローチでは、訓練プロセスに敵の知識を追加することができると仮定していた。本稿では,敵からの学習を必要としない頑健なDRLパラダイムを提案する。
論文参考訳（メタデータ） (2020-08-14T06:04:15Z)
Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文参考訳（メタデータ） (2020-03-19T17:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。