Fugu-MT 論文翻訳(概要): PolicyCleanse: Backdoor Detection and Mitigation in Reinforcement Learning

論文の概要: PolicyCleanse: Backdoor Detection and Mitigation in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2202.03609v5
Date: Thu, 14 Sep 2023 08:15:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-15 20:01:59.373745
Title: PolicyCleanse: Backdoor Detection and Mitigation in Reinforcement Learning
Title（参考訳）: PolicyCleanse:強化学習におけるバックドア検出と緩和
Authors: Junfeng Guo, Ang Li, Cong Liu
Abstract要約: マルチエージェント競争強化学習システムにおけるバックドア検出の問題を提案する。 PolicyCleanseは、活性化されたトロイの木馬のエージェントがいくつかの時間経過後に顕著に低下した性質に基づいている。 PolicyCleanseとともに、検出されたバックドアを効果的に緩和できる機械学習ベースのアプローチも設計します。
参考スコア（独自算出の注目度）: 19.524789009088245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While real-world applications of reinforcement learning are becoming popular, the security and robustness of RL systems are worthy of more attention and exploration. In particular, recent works have revealed that, in a multi-agent RL environment, backdoor trigger actions can be injected into a victim agent (a.k.a. Trojan agent), which can result in a catastrophic failure as soon as it sees the backdoor trigger action. To ensure the security of RL agents against malicious backdoors, in this work, we propose the problem of Backdoor Detection in a multi-agent competitive reinforcement learning system, with the objective of detecting Trojan agents as well as the corresponding potential trigger actions, and further trying to mitigate their Trojan behavior. In order to solve this problem, we propose PolicyCleanse that is based on the property that the activated Trojan agents accumulated rewards degrade noticeably after several timesteps. Along with PolicyCleanse, we also design a machine unlearning-based approach that can effectively mitigate the detected backdoor. Extensive experiments demonstrate that the proposed methods can accurately detect Trojan agents, and outperform existing backdoor mitigation baseline approaches by at least 3% in winning rate across various types of agents and environments.
Abstract（参考訳）: 強化学習の現実的な応用が普及しつつある一方で、RLシステムのセキュリティと堅牢性は、より注意と探索に値する。特に、近年の研究では、マルチエージェントのRL環境では、バックドアトリガーアクションが被害者のエージェント(すなわちトロイの木馬のエージェント)に注入され、バックドアトリガーアクションを見ると破滅的な失敗が起こることが示されている。本研究では,悪質なバックドアに対するRLエージェントの安全性を確保するため,複数エージェントによる競合強化学習システムにおけるバックドア検出の問題を提案する。この問題を解決するために,活性化されたトロイの木馬エージェントが数回の時間経過後に報酬を蓄積した特性に基づくポリシクリーゼを提案する。 PolicyCleanseとともに、検出されたバックドアを効果的に緩和できる機械学習ベースのアプローチも設計します。広範な実験により,提案手法はトロイの木馬エージェントを正確に検出でき,既存のバックドア緩和ベースラインアプローチを,各種エージェントや環境において,少なくとも3%の勝利率で上回ることができることが示された。

関連論文リスト

TrojanTO: Action-Level Backdoor Attacks against Trajectory Optimization Models [67.06525001375722]
TrojanTOはTOモデルに対する最初のアクションレベルのバックドア攻撃である。様々なタスクにバックドア攻撃を移植し、低い攻撃予算で目標を攻撃する。 TrojanTOはDT、GDT、DCに広く適用可能である。
論文参考訳（メタデータ） (2025-06-15T11:27:49Z)
Your Agent Can Defend Itself against Backdoor Attacks [0.0]
大規模言語モデル(LLM)を駆使したエージェントは、トレーニングと微調整の間、バックドア攻撃による重大なセキュリティリスクに直面している。本稿では,LDMをベースとしたエージェントに対するバックドア攻撃に対する新たな防御策であるReAgentを紹介する。
論文参考訳（メタデータ） (2025-06-10T01:45:56Z)
DemonAgent: Dynamically Encrypted Multi-Backdoor Implantation Attack on LLM-based Agent [6.82059828237144]
我々は,textbfDynamically Encrypted Multi-Backdoor implantation Attackと呼ばれる新しいバックドアインプラント戦略を提案する。動的暗号化を導入し、バックドアを良質なコンテンツにマッピングし、安全監査を効果的に回避する。本稿では,エージェントバックドア攻撃の包括的評価を目的としたデータセットであるAgentBackdoorEvalを提案する。
論文参考訳（メタデータ） (2025-02-18T06:26:15Z)
Breaking ReAct Agents: Foot-in-the-Door Attack Will Get You In [5.65782619470663]
本稿では,直感的かつ効果的な手法でReActエージェントをどのように活用できるかを検討する。実験の結果,間接的プロンプトインジェクション攻撃は,後続の悪意ある行為を行うエージェントの可能性を著しく高めることができることがわかった。この脆弱性を軽減するために,エージェントが実行中の動作の安全性を再評価する簡単なリフレクション機構の実装を提案する。
論文参考訳（メタデータ） (2024-10-22T12:24:41Z)
Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文参考訳（メタデータ） (2024-09-29T02:55:38Z)
A Spatiotemporal Stealthy Backdoor Attack against Cooperative Multi-Agent Deep Reinforcement Learning [12.535344011523897]
協調型多エージェント深層強化学習(c-MADRL)は、バックドア攻撃の脅威にさらされている。我々は,c-MADRLに対する新たなバックドア攻撃を提案し,単一のエージェントにのみバックドアを埋め込むことで,マルチエージェントチーム全体を攻撃する。私たちのバックドア攻撃は高い攻撃成功率(91.6%)を達成でき、クリーンパフォーマンスのばらつきは低い(3.7%)。
論文参考訳（メタデータ） (2024-09-12T06:17:37Z)
Unelicitable Backdoors in Language Models via Cryptographic Transformer Circuits [1.1118610055902116]
自己回帰型トランスフォーマーモデルに新しいバックドアのクラスを導入する。無効性により、ディフェンダーがバックドアを起動するのを防ぎ、デプロイ前に評価や検出が不可能になる。我々は, 暗号技術を用いることで, 新規な構築が不必要であるだけでなく, 良好な堅牢性を有することを示す。
論文参考訳（メタデータ） (2024-06-03T17:55:41Z)
SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文参考訳（メタデータ） (2024-05-19T14:50:09Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
Recover Triggered States: Protect Model Against Backdoor Attack in Reinforcement Learning [23.94769537680776]
バックドア攻撃は、悪意のあるユーザーが環境を操作したり、トレーニングデータを破損させたりすることで、トレーニングされたエージェントにバックドアを挿入することができる。本稿では,バックドア攻撃から被害者エージェントを効果的に保護する新しい手法であるリカバリトリガードステイト(RTS)手法を提案する。
論文参考訳（メタデータ） (2023-04-01T08:00:32Z)
FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。 FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文参考訳（メタデータ） (2023-02-28T11:31:29Z)
An anomaly detection approach for backdoored neural networks: face recognition as a case study [77.92020418343022]
本稿では,異常検出の原理に基づく新しいバックドアネットワーク検出手法を提案する。バックドアネットワークの新たなデータセット上で本手法を検証し,完全スコアで検出可能性について報告する。
論文参考訳（メタデータ） (2022-08-22T12:14:13Z)
BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning [80.99426477001619]
バックドア攻撃を複数のエージェントを含むより複雑なRLシステムに移行する。概念実証として、敵のエージェントが被害者エージェントのバックドアを独自のアクションでトリガーできることを実証します。その結果, バックドアが作動すると, 有効でない場合と比較して, 被害者の勝利率は17%から37%に低下することがわかった。
論文参考訳（メタデータ） (2021-05-02T23:47:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。