論文の概要: Backdoors in DRL: Four Environments Focusing on In-distribution Triggers
- arxiv url: http://arxiv.org/abs/2505.17248v2
- Date: Tue, 27 May 2025 21:01:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 12:33:41.716451
- Title: Backdoors in DRL: Four Environments Focusing on In-distribution Triggers
- Title(参考訳): DRLのバックドア:In-distribution Triggerに着目した4つの環境
- Authors: Chace Ashcraft, Ted Staley, Josh Carney, Cameron Hickert, Kiran Karra, Nathan Drenkow,
- Abstract要約: 深部強化学習(DRL)のためのトロイの木馬の開発を行った。
エージェントの自然なデータ配信内で発生する分散トリガは、配布外トリガよりもセキュリティ上の重大な脅威を引き起こす。
4つの強化学習環境において,バックドア攻撃を実施している。
- 参考スコア(独自算出の注目度): 2.8619264028111546
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Backdoor attacks, or trojans, pose a security risk by concealing undesirable behavior in deep neural network models. Open-source neural networks are downloaded from the internet daily, possibly containing backdoors, and third-party model developers are common. To advance research on backdoor attack mitigation, we develop several trojans for deep reinforcement learning (DRL) agents. We focus on in-distribution triggers, which occur within the agent's natural data distribution, since they pose a more significant security threat than out-of-distribution triggers due to their ease of activation by the attacker during model deployment. We implement backdoor attacks in four reinforcement learning (RL) environments: LavaWorld, Randomized LavaWorld, Colorful Memory, and Modified Safety Gymnasium. We train various models, both clean and backdoored, to characterize these attacks. We find that in-distribution triggers can require additional effort to implement and be more challenging for models to learn, but are nevertheless viable threats in DRL even using basic data poisoning attacks.
- Abstract(参考訳): バックドアアタック(あるいはトロイの木馬)は、ディープニューラルネットワークモデルで望ましくない振る舞いを隠すことによって、セキュリティリスクを引き起こす。
オープンソースのニューラルネットワークは毎日インターネットからダウンロードされ、バックドアを含む可能性がある。
バックドアアタックの緩和に関する研究を進めるために, 深部強化学習(DRL)エージェント用トロイの木馬の開発を行った。
モデル展開中の攻撃者によるアクティベーションの容易さにより、配信外トリガよりもセキュリティ上の脅威が大きいため、エージェントの自然言語配信内で発生する配信内トリガに注目する。
我々は,4つの強化学習環境(LavaWorld,Randomized LavaWorld,Colorful Memory,Modified Safety Gymnasium)にバックドア攻撃を実装した。
これらの攻撃を特徴付けるために、クリーンとバックドアの両方でさまざまなモデルをトレーニングします。
ディストリビューションのトリガーは、モデルが学習するために追加の労力を必要とし、より困難なものになり得るが、しかしながら、基本的なデータ中毒攻撃でさえDRLで実行可能な脅威である。
関連論文リスト
- Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。
動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。
本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文 参考訳(メタデータ) (2024-10-16T18:44:22Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Recover Triggered States: Protect Model Against Backdoor Attack in
Reinforcement Learning [23.94769537680776]
バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。
本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:00:32Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Backdoors Stuck At The Frontdoor: Multi-Agent Backdoor Attacks That
Backfire [8.782809316491948]
複数の攻撃者が同時に被害者モデルをバックドアしようとするマルチエージェントバックドア攻撃シナリオについて検討する。
エージェントが集団攻撃の成功率の低いゲームで一貫したバックファイリング現象が観察される。
その結果,実践環境におけるバックドア・ディフェンス研究の再評価の動機となった。
論文 参考訳(メタデータ) (2022-01-28T16:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。