論文の概要: BadRL: Sparse Targeted Backdoor Attack Against Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2312.12585v1
- Date: Tue, 19 Dec 2023 20:29:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 17:47:53.998722
- Title: BadRL: Sparse Targeted Backdoor Attack Against Reinforcement Learning
- Title(参考訳): badrl:強化学習に対するsparseターゲットのバックドア攻撃
- Authors: Jing Cui, Yufei Han, Yuzhe Ma, Jianbin Jiao, Junge Zhang
- Abstract要約: 強化学習(RL)におけるバックドア攻撃は、これまで攻撃の成功を確実にするために激しい攻撃戦略を採用してきた。
本研究は, トレーニングおよび試験において, 背部毒を多量に投与することに焦点を当てた新しいアプローチであるBadRLを提案する。
私たちのアルゴリズムであるBadRLは、高い攻撃値を持つ状態観測を戦略的に選択し、トレーニングやテスト中にトリガーを注入し、検出の機会を減らす。
- 参考スコア(独自算出の注目度): 37.19070609394519
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Backdoor attacks in reinforcement learning (RL) have previously employed
intense attack strategies to ensure attack success. However, these methods
suffer from high attack costs and increased detectability. In this work, we
propose a novel approach, BadRL, which focuses on conducting highly sparse
backdoor poisoning efforts during training and testing while maintaining
successful attacks. Our algorithm, BadRL, strategically chooses state
observations with high attack values to inject triggers during training and
testing, thereby reducing the chances of detection. In contrast to the previous
methods that utilize sample-agnostic trigger patterns, BadRL dynamically
generates distinct trigger patterns based on targeted state observations,
thereby enhancing its effectiveness. Theoretical analysis shows that the
targeted backdoor attack is always viable and remains stealthy under specific
assumptions. Empirical results on various classic RL tasks illustrate that
BadRL can substantially degrade the performance of a victim agent with minimal
poisoning efforts 0.003% of total training steps) during training and
infrequent attacks during testing.
- Abstract(参考訳): 強化学習におけるバックドア攻撃(rl)は、攻撃の成功を確実にするために強烈な攻撃戦略を採用している。
しかし、これらの手法は高い攻撃コストと検出性の向上に苦しむ。
本研究は,攻撃を成功させながら,訓練やテスト中に極めてスパースなバックドア中毒作業をすることに焦点を当てた,新しいアプローチであるbadrlを提案する。
私たちのアルゴリズムであるbadrlは、トレーニングやテスト中にトリガーを注入するために、高い攻撃値を持つ状態観測を戦略的に選択します。
サンプルに依存しないトリガーパターンを使用する以前の方法とは対照的に、badrlはターゲット状態の観測に基づいて動的にトリガーパターンを生成し、その効果を高める。
理論的分析によると、標的となるバックドア攻撃は常に可能であり、特定の仮定の下ではステルス性を維持している。
各種の古典的RLタスクにおける実証的な結果から、BadRLは、テスト中のトレーニングおよび頻繁な攻撃において、最小限の毒殺力(総トレーニングステップの0.003%)で被害者エージェントのパフォーマンスを著しく低下させることができることが示されている。
関連論文リスト
- Reliable Poisoned Sample Detection against Backdoor Attacks Enhanced by Sharpness Aware Minimization [38.957943962546864]
我々は,バニラ学習アルゴリズムではなく,シャープネス・アウェア最小化(SAM)アルゴリズムを用いて1つのモデルを訓練することを提案する。
いくつかのベンチマークデータセットに対する大規模な実験は、弱いバックドア攻撃と強いバックドア攻撃の両方に対して提案手法の信頼性の高い検出性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:35:08Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - Revisiting Backdoor Attacks against Large Vision-Language Models [76.42014292255944]
本稿では,LVLMの命令チューニングにおけるバックドア攻撃の一般化可能性について実験的に検討する。
以上に基づいて,既存のバックドア攻撃を修正した。
本稿では,従来のシンプルなバックドア戦略でさえ,LVLMに深刻な脅威をもたらすことを指摘する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents [16.350898218047405]
強化学習(Reinforcement Learning, RL)は、現実世界の安全クリティカルなアプリケーションでの利用が増加している分野である。
この研究では、特にステルス性のRL(バックドア中毒)に対するトレーニングタイムアタックを調査します。
我々は、敵の目的と最適な政策を見出す目的を結びつける新しい毒殺の枠組みを定式化する。
論文 参考訳(メタデータ) (2024-05-30T23:31:25Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - Efficient Adversarial Training without Attacking: Worst-Case-Aware
Robust Reinforcement Learning [14.702446153750497]
Worst-case-aware Robust RL (WocaR-RL) は、深層強化学習のための堅牢なトレーニングフレームワークである。
我々は,WocaR-RLが様々な攻撃により最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-10-12T05:24:46Z) - Sampling Attacks on Meta Reinforcement Learning: A Minimax Formulation
and Complexity Analysis [20.11993437283895]
本稿では,この種のセキュリティリスクを理解するためのゲーム理論的基盤を提供する。
我々は、サンプリング攻撃モデルを、攻撃者とエージェントの間のスタックルバーグゲームとして定義し、最小限の定式化をもたらす。
我々は,攻撃者の小さな努力が学習性能を著しく低下させる可能性があることを観察した。
論文 参考訳(メタデータ) (2022-07-29T21:29:29Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。