論文の概要: BadRL: Sparse Targeted Backdoor Attack Against Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.12585v1
- Date: Tue, 19 Dec 2023 20:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:47:53.998722
- Title: BadRL: Sparse Targeted Backdoor Attack Against Reinforcement Learning
- Title(参考訳): badrl:強化学習に対するsparseターゲットのバックドア攻撃
- Authors: Jing Cui, Yufei Han, Yuzhe Ma, Jianbin Jiao, Junge Zhang
- Abstract要約: 強化学習(RL)におけるバックドア攻撃は、これまで攻撃の成功を確実にするために激しい攻撃戦略を採用してきた。
本研究は, トレーニングおよび試験において, 背部毒を多量に投与することに焦点を当てた新しいアプローチであるBadRLを提案する。
私たちのアルゴリズムであるBadRLは、高い攻撃値を持つ状態観測を戦略的に選択し、トレーニングやテスト中にトリガーを注入し、検出の機会を減らす。
- 参考スコア(独自算出の注目度): 37.19070609394519
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Backdoor attacks in reinforcement learning (RL) have previously employed
intense attack strategies to ensure attack success. However, these methods
suffer from high attack costs and increased detectability. In this work, we
propose a novel approach, BadRL, which focuses on conducting highly sparse
backdoor poisoning efforts during training and testing while maintaining
successful attacks. Our algorithm, BadRL, strategically chooses state
observations with high attack values to inject triggers during training and
testing, thereby reducing the chances of detection. In contrast to the previous
methods that utilize sample-agnostic trigger patterns, BadRL dynamically
generates distinct trigger patterns based on targeted state observations,
thereby enhancing its effectiveness. Theoretical analysis shows that the
targeted backdoor attack is always viable and remains stealthy under specific
assumptions. Empirical results on various classic RL tasks illustrate that
BadRL can substantially degrade the performance of a victim agent with minimal
poisoning efforts 0.003% of total training steps) during training and
infrequent attacks during testing.
- Abstract(参考訳): 強化学習におけるバックドア攻撃(rl)は、攻撃の成功を確実にするために強烈な攻撃戦略を採用している。
しかし、これらの手法は高い攻撃コストと検出性の向上に苦しむ。
本研究は,攻撃を成功させながら,訓練やテスト中に極めてスパースなバックドア中毒作業をすることに焦点を当てた,新しいアプローチであるbadrlを提案する。
私たちのアルゴリズムであるbadrlは、トレーニングやテスト中にトリガーを注入するために、高い攻撃値を持つ状態観測を戦略的に選択します。
サンプルに依存しないトリガーパターンを使用する以前の方法とは対照的に、badrlはターゲット状態の観測に基づいて動的にトリガーパターンを生成し、その効果を高める。
理論的分析によると、標的となるバックドア攻撃は常に可能であり、特定の仮定の下ではステルス性を維持している。
各種の古典的RLタスクにおける実証的な結果から、BadRLは、テスト中のトレーニングおよび頻繁な攻撃において、最小限の毒殺力(総トレーニングステップの0.003%)で被害者エージェントのパフォーマンスを著しく低下させることができることが示されている。
関連論文リスト
- ReRoGCRL: Representation-based Robustness in Goal-Conditioned
Reinforcement Learning [29.868059421372244]
Goal-Conditioned Reinforcement Learning (GCRL) は注目されているが、敵の摂動に対するアルゴリズム的堅牢性はいまだ解明されていない。
まず,敵対的コントラスト攻撃に触発されたセミコントラスト表現攻撃を提案する。
次に,セミコントラスト・アジュメンテーションと感性認識正規化器を組み合わせた適応表現手法を提案する。
論文 参考訳(メタデータ) (2023-12-12T16:05:55Z) - Rethinking Backdoor Attacks [122.1008188058615]
バックドア攻撃では、悪意ある構築されたバックドアの例をトレーニングセットに挿入し、結果のモデルを操作に脆弱にする。
このような攻撃に対する防御は、典型的には、これらの挿入された例をトレーニングセットの外れ値として見ることと、堅牢な統計からのテクニックを使用してそれらを検出し、削除することである。
トレーニングデータ分布に関する構造情報がなければ,バックドア攻撃は自然に発生するデータの特徴と区別できないことを示す。
論文 参考訳(メタデータ) (2023-07-19T17:44:54Z) - Backdoor Attack with Sparse and Invisible Trigger [60.84183404621145]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Efficient Adversarial Training without Attacking: Worst-Case-Aware
Robust Reinforcement Learning [14.702446153750497]
Worst-case-aware Robust RL (WocaR-RL) は、深層強化学習のための堅牢なトレーニングフレームワークである。
我々は,WocaR-RLが様々な攻撃により最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-10-12T05:24:46Z) - Sampling Attacks on Meta Reinforcement Learning: A Minimax Formulation
and Complexity Analysis [20.11993437283895]
本稿では,この種のセキュリティリスクを理解するためのゲーム理論的基盤を提供する。
我々は、サンプリング攻撃モデルを、攻撃者とエージェントの間のスタックルバーグゲームとして定義し、最小限の定式化をもたらす。
我々は,攻撃者の小さな努力が学習性能を著しく低下させる可能性があることを観察した。
論文 参考訳(メタデータ) (2022-07-29T21:29:29Z) - Efficient Reward Poisoning Attacks on Online Deep Reinforcement Learning [6.414910263179327]
オンライン深層学習(DRL)における報酬中毒に関する研究
我々は、敵MDP攻撃と呼ばれる一般的なブラックボックス報酬中毒フレームワークを設計することで、最先端DRLアルゴリズムの本質的な脆弱性を実証する。
以上の結果から,我々の攻撃は,いくつかの古典的制御環境や MuJoCo 環境下で学習する有害物質を効果的に検出できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:07:19Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。