論文の概要: TooBadRL: Trigger Optimization to Boost Effectiveness of Backdoor Attacks on Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.09562v1
- Date: Wed, 11 Jun 2025 09:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.838686
- Title: TooBadRL: Trigger Optimization to Boost Effectiveness of Backdoor Attacks on Deep Reinforcement Learning
- Title(参考訳): TooBadRL: 深層強化学習におけるバックドア攻撃の有効性向上のためのトリガー最適化
- Authors: Songze Li, Mingxuan Zhang, Oubo Ma, Kang Wei, Shouling Ji,
- Abstract要約: TooBadRLは、DRLバックドアトリガーを3つの臨界軸(時間、空間、大きさ)に沿って体系的に最適化するフレームワークである。
TooBadRLは,通常のタスク性能の低下を最小限に抑えつつ,攻撃成功率を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 36.78590404403016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has achieved remarkable success in a wide range of sequential decision-making domains, including robotics, healthcare, smart grids, and finance. Recent research demonstrates that attackers can efficiently exploit system vulnerabilities during the training phase to execute backdoor attacks, producing malicious actions when specific trigger patterns are present in the state observations. However, most existing backdoor attacks rely primarily on simplistic and heuristic trigger configurations, overlooking the potential efficacy of trigger optimization. To address this gap, we introduce TooBadRL (Trigger Optimization to Boost Effectiveness of Backdoor Attacks on DRL), the first framework to systematically optimize DRL backdoor triggers along three critical axes, i.e., temporal, spatial, and magnitude. Specifically, we first introduce a performance-aware adaptive freezing mechanism for injection timing. Then, we formulate dimension selection as a cooperative game, utilizing Shapley value analysis to identify the most influential state variable for the injection dimension. Furthermore, we propose a gradient-based adversarial procedure to optimize the injection magnitude under environment constraints. Evaluations on three mainstream DRL algorithms and nine benchmark tasks show that TooBadRL significantly improves attack success rates, while ensuring minimal degradation of normal task performance. These results highlight the previously underappreciated importance of principled trigger optimization in DRL backdoor attacks. The source code of TooBadRL can be found at https://github.com/S3IC-Lab/TooBadRL.
- Abstract(参考訳): 深層強化学習(DRL)は、ロボット工学、ヘルスケア、スマートグリッド、ファイナンスなど、さまざまなシーケンシャルな意思決定領域で大きな成功を収めている。
最近の研究では、攻撃者は訓練期間中にシステム脆弱性を効果的に利用してバックドア攻撃を実行し、州の観察に特定のトリガーパターンが存在する場合に悪意あるアクションを発生させることができることが示されている。
しかし、既存のバックドア攻撃のほとんどは、トリガー最適化の有効性を見越して、主に単純かつヒューリスティックなトリガー構成に依存している。
このギャップに対処するために,DRLのバックドアトリガを3つの臨界軸に沿って体系的に最適化する最初のフレームワークであるTothBadRL(Trigger Optimization to Boost Effectiveness of Backdoor Attacks on DRL)を紹介する。
具体的には、まず、インジェクションタイミングに適応する適応凍結機構を導入する。
そこで我々は,Shapley値解析を用いて次元選択を協調ゲームとして定式化し,インジェクション次元の最も影響力のある状態変数を同定する。
さらに,環境制約下でのインジェクションサイズを最適化するために,勾配に基づく逆法を提案する。
3つの主要なDRLアルゴリズムと9つのベンチマークタスクの評価は、TooBadRLが通常のタスク性能の最小限の低下を確保しながら、攻撃成功率を大幅に改善することを示している。
これらの結果から,DRLバックドア攻撃における原則的トリガ最適化の重要性が強調された。
TooBadRLのソースコードはhttps://github.com/S3IC-Lab/TooBadRLにある。
関連論文リスト
- Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization [0.0]
悪意のあるRL微調整は、優れた効率で安全ガードレールを解体する。
監督された微調整を狙った既存の防御は効果がない。
我々は、RL微調整攻撃に対して特別に設計された最初の防御フレームワークであるReward Neutralizationを紹介する。
論文 参考訳(メタデータ) (2025-05-07T17:18:48Z) - Neural Antidote: Class-Wise Prompt Tuning for Purifying Backdoors in Pre-trained Vision-Language Models [42.81731204702258]
CBPT(Class-wise Backdoor Prompt Tuning)は、テキストプロンプトによって間接的に汚染された視覚言語モデル(VLM)を浄化する効率的な方法である。
CBPTは、7つの主要なバックドア攻撃に対して平均的クリーン精度(CA)58.86%、アタック成功率(ASR)0.39%のモデルユーティリティを維持しながら、バックドアの脅威を著しく軽減する。
論文 参考訳(メタデータ) (2025-02-26T16:25:15Z) - Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。
動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。
本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文 参考訳(メタデータ) (2024-10-16T18:44:22Z) - IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency [20.61046457594186]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
本稿では、悪意のあるテスト画像のフィルタリングを行うための、シンプルで効果的な入力レベルのバックドア検出(IBD-PSCと呼ばれる)を提案する。
論文 参考訳(メタデータ) (2024-05-16T03:19:52Z) - BadRL: Sparse Targeted Backdoor Attack Against Reinforcement Learning [37.19070609394519]
強化学習(RL)におけるバックドア攻撃は、これまで攻撃の成功を確実にするために激しい攻撃戦略を採用してきた。
本研究は, トレーニングおよび試験において, 背部毒を多量に投与することに焦点を当てた新しいアプローチであるBadRLを提案する。
私たちのアルゴリズムであるBadRLは、高い攻撃値を持つ状態観測を戦略的に選択し、トレーニングやテスト中にトリガーを注入し、検出の機会を減らす。
論文 参考訳(メタデータ) (2023-12-19T20:29:29Z) - Backdoor Mitigation by Correcting the Distribution of Neural Activations [30.554700057079867]
バックドア(トロイジャン)攻撃はディープニューラルネットワーク(DNN)に対する敵対的攻撃の重要なタイプである
バックドア攻撃の重要な特性を解析し、バックドア・トリガー・インスタンスの内部層活性化の分布の変化を引き起こす。
本稿では,分散変化を補正し,学習後のバックドア緩和を効果的かつ効果的に行う方法を提案する。
論文 参考訳(メタデータ) (2023-08-18T22:52:29Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。