論文の概要: PolicyCleanse: Backdoor Detection and Mitigation in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2202.03609v5
- Date: Thu, 14 Sep 2023 08:15:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 20:01:59.373745
- Title: PolicyCleanse: Backdoor Detection and Mitigation in Reinforcement
Learning
- Title(参考訳): PolicyCleanse:強化学習におけるバックドア検出と緩和
- Authors: Junfeng Guo, Ang Li, Cong Liu
- Abstract要約: マルチエージェント競争強化学習システムにおけるバックドア検出の問題を提案する。
PolicyCleanseは、活性化されたトロイの木馬のエージェントがいくつかの時間経過後に顕著に低下した性質に基づいている。
PolicyCleanseとともに、検出されたバックドアを効果的に緩和できる機械学習ベースのアプローチも設計します。
- 参考スコア(独自算出の注目度): 19.524789009088245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While real-world applications of reinforcement learning are becoming popular,
the security and robustness of RL systems are worthy of more attention and
exploration. In particular, recent works have revealed that, in a multi-agent
RL environment, backdoor trigger actions can be injected into a victim agent
(a.k.a. Trojan agent), which can result in a catastrophic failure as soon as it
sees the backdoor trigger action. To ensure the security of RL agents against
malicious backdoors, in this work, we propose the problem of Backdoor Detection
in a multi-agent competitive reinforcement learning system, with the objective
of detecting Trojan agents as well as the corresponding potential trigger
actions, and further trying to mitigate their Trojan behavior. In order to
solve this problem, we propose PolicyCleanse that is based on the property that
the activated Trojan agents accumulated rewards degrade noticeably after
several timesteps. Along with PolicyCleanse, we also design a machine
unlearning-based approach that can effectively mitigate the detected backdoor.
Extensive experiments demonstrate that the proposed methods can accurately
detect Trojan agents, and outperform existing backdoor mitigation baseline
approaches by at least 3% in winning rate across various types of agents and
environments.
- Abstract(参考訳): 強化学習の現実的な応用が普及しつつある一方で、RLシステムのセキュリティと堅牢性は、より注意と探索に値する。
特に、近年の研究では、マルチエージェントのRL環境では、バックドアトリガーアクションが被害者のエージェント(すなわちトロイの木馬のエージェント)に注入され、バックドアトリガーアクションを見ると破滅的な失敗が起こることが示されている。
本研究では,悪質なバックドアに対するRLエージェントの安全性を確保するため,複数エージェントによる競合強化学習システムにおけるバックドア検出の問題を提案する。
この問題を解決するために,活性化されたトロイの木馬エージェントが数回の時間経過後に報酬を蓄積した特性に基づくポリシクリーゼを提案する。
PolicyCleanseとともに、検出されたバックドアを効果的に緩和できる機械学習ベースのアプローチも設計します。
広範な実験により,提案手法はトロイの木馬エージェントを正確に検出でき,既存のバックドア緩和ベースラインアプローチを,各種エージェントや環境において,少なくとも3%の勝利率で上回ることができることが示された。
関連論文リスト
- Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based
Agents [50.034049716274005]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。
まず、エージェントバックドア攻撃の一般的な枠組みを定式化し、その後、エージェントバックドア攻撃の様々な形態について徹底的に分析する。
本稿では,2つの典型的なエージェント・タスクに対するエージェント・バックドア・アタックのバリエーションを実装するためのデータ中毒機構を提案する。
論文 参考訳(メタデータ) (2024-02-17T06:48:45Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Backdoor Mitigation by Correcting the Distribution of Neural Activations [30.554700057079867]
バックドア(トロイジャン)攻撃はディープニューラルネットワーク(DNN)に対する敵対的攻撃の重要なタイプである
バックドア攻撃の重要な特性を解析し、バックドア・トリガー・インスタンスの内部層活性化の分布の変化を引き起こす。
本稿では,分散変化を補正し,学習後のバックドア緩和を効果的かつ効果的に行う方法を提案する。
論文 参考訳(メタデータ) (2023-08-18T22:52:29Z) - Recover Triggered States: Protect Model Against Backdoor Attack in
Reinforcement Learning [23.94769537680776]
バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。
本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。
論文 参考訳(メタデータ) (2023-04-01T08:00:32Z) - FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。
FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文 参考訳(メタデータ) (2023-02-28T11:31:29Z) - An anomaly detection approach for backdoored neural networks: face
recognition as a case study [77.92020418343022]
本稿では,異常検出の原理に基づく新しいバックドアネットワーク検出手法を提案する。
バックドアネットワークの新たなデータセット上で本手法を検証し,完全スコアで検出可能性について報告する。
論文 参考訳(メタデータ) (2022-08-22T12:14:13Z) - Backdoors Stuck At The Frontdoor: Multi-Agent Backdoor Attacks That
Backfire [8.782809316491948]
複数の攻撃者が同時に被害者モデルをバックドアしようとするマルチエージェントバックドア攻撃シナリオについて検討する。
エージェントが集団攻撃の成功率の低いゲームで一貫したバックファイリング現象が観察される。
その結果,実践環境におけるバックドア・ディフェンス研究の再評価の動機となった。
論文 参考訳(メタデータ) (2022-01-28T16:11:40Z) - CatchBackdoor: Backdoor Testing by Critical Trojan Neural Path
Identification via Differential Fuzzing [10.195729680573775]
現実世界のアプリケーションにおけるディープニューラルネットワーク(DNN)の成功は、豊富な事前学習モデルの恩恵を受けている。
バックドアで事前訓練されたモデルは、下流DNNの展開に重大なトロイの木馬の脅威をもたらす可能性がある。
この作業は、DNNのバックドアテストの定式化と、CatchBackdoorフレームワークの提案である。
論文 参考訳(メタデータ) (2021-12-24T13:57:03Z) - BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning [80.99426477001619]
バックドア攻撃を複数のエージェントを含むより複雑なRLシステムに移行する。
概念実証として、敵のエージェントが被害者エージェントのバックドアを独自のアクションでトリガーできることを実証します。
その結果, バックドアが作動すると, 有効でない場合と比較して, 被害者の勝利率は17%から37%に低下することがわかった。
論文 参考訳(メタデータ) (2021-05-02T23:47:55Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。