論文の概要: BadActs: A Universal Backdoor Defense in the Activation Space
- arxiv url: http://arxiv.org/abs/2405.11227v1
- Date: Sat, 18 May 2024 08:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 18:48:01.283602
- Title: BadActs: A Universal Backdoor Defense in the Activation Space
- Title(参考訳): BadActs: アクティベーション・スペースにおけるユニバーサル・バックドア・ディフェンス
- Authors: Biao Yi, Sishuo Chen, Yiming Li, Tong Li, Baolei Zhang, Zheli Liu,
- Abstract要約: アクティベーション空間におけるバックドアサンプルを浄化するユニバーサルバックドアディフェンスを導入する。
アクティベーション空間で操作することで、単語のような表面的な情報から構文のような高レベルのセマンティックな概念までをキャプチャする。
本稿では,異常なアクティベーションの統計情報に基づく検出モジュールを提案する。
- 参考スコア(独自算出の注目度): 14.042905759502267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backdoor attacks pose an increasingly severe security threat to Deep Neural Networks (DNNs) during their development stage. In response, backdoor sample purification has emerged as a promising defense mechanism, aiming to eliminate backdoor triggers while preserving the integrity of the clean content in the samples. However, existing approaches have been predominantly focused on the word space, which are ineffective against feature-space triggers and significantly impair performance on clean data. To address this, we introduce a universal backdoor defense that purifies backdoor samples in the activation space by drawing abnormal activations towards optimized minimum clean activation distribution intervals. The advantages of our approach are twofold: (1) By operating in the activation space, our method captures from surface-level information like words to higher-level semantic concepts such as syntax, thus counteracting diverse triggers; (2) the fine-grained continuous nature of the activation space allows for more precise preservation of clean content while removing triggers. Furthermore, we propose a detection module based on statistical information of abnormal activations, to achieve a better trade-off between clean accuracy and defending performance.
- Abstract(参考訳): バックドア攻撃は、開発段階でDeep Neural Networks(DNN)にますます深刻なセキュリティ脅威をもたらす。
これに対し, 試料中のクリーンな内容の完全性を維持しつつ, バックドアトリガーを除去することを目的とした, 防御機構として, バックドア試料の浄化が期待されている。
しかし、既存のアプローチは主に単語空間に焦点を合わせており、これは特徴空間のトリガーには効果がなく、クリーンなデータの性能を著しく損なう。
そこで本研究では,アクティベーション空間内のバックドアサンプルを,最小限のクリーンなアクティベーション分布間隔の最適化に向けて,異常なアクティベーションを引き出すことにより,普遍的なバックドアディフェンスを導入する。
本手法の利点は,(1) アクティベーション空間における操作により, 単語などの表層的な情報から, 構文などの高レベルなセマンティックな概念へ変換し, 多様なトリガに対処すること,(2) アクティベーション空間のきめ細かい連続的な性質により, トリガを除去しながら, クリーンなコンテンツのより正確な保存が可能となること, である。
さらに,異常なアクティベーションの統計情報に基づく検出モジュールを提案し,クリーンな精度と防御性能のトレードオフを改善する。
関連論文リスト
- AnywhereDoor: Multi-Target Backdoor Attacks on Object Detection [9.539021752700823]
AnywhereDoorは、オブジェクト検出に適した柔軟なバックドア攻撃だ。
攻撃者に対して高い制御能力を提供し、攻撃成功率を80%近く向上させる。
論文 参考訳(メタデータ) (2024-11-21T15:50:59Z) - CROW: Eliminating Backdoors from Large Language Models via Internal Consistency Regularization [7.282200564983221]
大規模言語モデル(LLM)は、バックドア攻撃の影響を受けやすい。
バックドアトリガによる階層的不整合に対処するために、内部一貫性規則化(CROW)を導入する。
CROWは、さまざまなバックドア戦略やタスクにおける攻撃成功率の大幅な削減を一貫して達成している。
論文 参考訳(メタデータ) (2024-11-18T07:52:12Z) - Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense [27.471096446155933]
現行のバックドア浄化法における精製後ロバスト性について検討した。
現在の安全浄化法は, バックドア行動の迅速な再学習に弱いことが判明した。
モデル更新を伴うバックドア接続経路の偏差を緩和するチューニングディフェンス,Path-Aware Minimization (PAM)を提案する。
論文 参考訳(メタデータ) (2024-10-13T13:37:36Z) - Mitigating Deep Reinforcement Learning Backdoors in the Neural Activation Space [0.24578723416255752]
本稿では,深層強化学習(DRL)エージェントポリシーにおけるバックドアの脅威について検討する。
実行時に検出する新しい方法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:48:23Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Subspace Defense: Discarding Adversarial Perturbations by Learning a Subspace for Clean Signals [52.123343364599094]
敵の攻撃は、正常な例に基づいて慎重に摂動を行い、ディープニューラルネットワーク(DNN)を騙す
まず,低次元線形部分空間において,クリーン信号と逆方向の摂動の特徴が冗長であり,重なりが最小であることを示す。
これにより、DNNは、摂動が破棄されている間、クリーン信号の特徴のみが存在する部分空間を学習することができる。
論文 参考訳(メタデータ) (2024-03-24T14:35:44Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Setting the Trap: Capturing and Defeating Backdoors in Pretrained
Language Models through Honeypots [68.84056762301329]
近年の研究では、バックドア攻撃に対するプレトレーニング言語モデル(PLM)の感受性が明らかにされている。
バックドア情報のみを吸収するために,ハニーポットモジュールをオリジナルのPLMに統合する。
我々の設計は、PLMの低層表現が十分なバックドア特徴を持っているという観察に動機づけられている。
論文 参考訳(メタデータ) (2023-10-28T08:21:16Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。