論文の概要: DECK: Model Hardening for Defending Pervasive Backdoors
- arxiv url: http://arxiv.org/abs/2206.09272v1
- Date: Sat, 18 Jun 2022 19:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 13:31:17.308155
- Title: DECK: Model Hardening for Defending Pervasive Backdoors
- Title(参考訳): DECK: 広汎なバックドアを守るためのモデルハードニング
- Authors: Guanhong Tao, Yingqi Liu, Siyuan Cheng, Shengwei An, Zhuo Zhang,
Qiuling Xu, Guangyu Shen, Xiangyu Zhang
- Abstract要約: 広汎なバックドアは動的および広汎な入力摂動によって引き起こされる。
我々は,特殊な変換層で拡張されたエンコーダ・デコーダアーキテクチャに基づく汎用攻撃を開発する。
本手法は, 精度1%以下で平均59.65%の精度でクラス距離を拡大し, 損失を生じない。
- 参考スコア(独自算出の注目度): 21.163501644177668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pervasive backdoors are triggered by dynamic and pervasive input
perturbations. They can be intentionally injected by attackers or naturally
exist in normally trained models. They have a different nature from the
traditional static and localized backdoors that can be triggered by perturbing
a small input area with some fixed pattern, e.g., a patch with solid color.
Existing defense techniques are highly effective for traditional backdoors.
However, they may not work well for pervasive backdoors, especially regarding
backdoor removal and model hardening. In this paper, we propose a novel model
hardening technique against pervasive backdoors, including both natural and
injected backdoors. We develop a general pervasive attack based on an
encoder-decoder architecture enhanced with a special transformation layer. The
attack can model a wide range of existing pervasive backdoor attacks and
quantify them by class distances. As such, using the samples derived from our
attack in adversarial training can harden a model against these backdoor
vulnerabilities. Our evaluation on 9 datasets with 15 model structures shows
that our technique can enlarge class distances by 59.65% on average with less
than 1% accuracy degradation and no robustness loss, outperforming five
hardening techniques such as adversarial training, universal adversarial
training, MOTH, etc. It can reduce the attack success rate of six pervasive
backdoor attacks from 99.06% to 1.94%, surpassing seven state-of-the-art
backdoor removal techniques.
- Abstract(参考訳): 広汎なバックドアは動的および広汎な入力摂動によって引き起こされる。
故意に攻撃者から注射されるか、通常訓練されたモデルに自然に存在する。
それらは従来の静的および局所化されたバックドアとは異なる性質を持ち、小さな入力領域を固定されたパターンで摂動することでトリガーすることができる。
既存の防御技術は従来のバックドアに非常に効果的である。
しかし、広範に普及しているバックドア、特にバックドアの除去とモデル硬化についてはうまく機能しない。
本稿では,自然と注入の両方のバックドアを含む広汎なバックドアに対する新しいモデル硬化技術を提案する。
我々は,特殊な変換層で拡張されたエンコーダ・デコーダアーキテクチャに基づく汎用攻撃を開発する。
この攻撃は、既存の広範囲にわたるバックドア攻撃をモデル化し、クラス距離でそれらを定量化することができる。
このように、敵の訓練において我々の攻撃から得られたサンプルを使用することで、これらのバックドア脆弱性に対するモデルを強化することができる。
15のモデル構造を持つ9つのデータセットを評価したところ, クラス距離を平均59.65%拡大し, 1%未満の精度劣化とロバスト性損失を伴わず, 対人訓練, ユニバーサル対人訓練, MOTHなどの5つのハードニング技術より優れていた。
攻撃成功率を99.06%から1.94%に下げ、最先端の7つのバックドア除去技術を上回っている。
関連論文リスト
- Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。
我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。
複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文 参考訳(メタデータ) (2024-12-09T05:30:25Z) - TrojFM: Resource-efficient Backdoor Attacks against Very Large Foundation Models [69.37990698561299]
TrojFMは、非常に大きな基礎モデルに適した、新しいバックドア攻撃である。
提案手法では,モデルパラメータのごく一部のみを微調整することでバックドアを注入する。
広範に使われている大規模GPTモデルに対して,TrojFMが効果的なバックドアアタックを起動できることを実証する。
論文 参考訳(メタデータ) (2024-05-27T03:10:57Z) - Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor [63.84477483795964]
データ中毒のバックドア攻撃は、機械学習モデルにとって深刻なセキュリティ上の脅威である。
本稿では,トレーニング中のバックドアディフェンスに着目し,データセットが有害になりうる場合でもクリーンなモデルをトレーニングすることを目的とした。
PDB(Proactive Defensive Backdoor)と呼ばれる新しい防衛手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T07:52:26Z) - PatchBackdoor: Backdoor Attack against Deep Neural Networks without
Model Modification [0.0]
バックドア攻撃は、安全クリティカルなシナリオにおけるディープラーニングシステムに対する大きな脅威である。
本稿では,モデル変更なしにバックドア攻撃が可能であることを示す。
PatchBackdoorを現実のシナリオで実装し、攻撃がまだ脅威であることを示す。
論文 参考訳(メタデータ) (2023-08-22T23:02:06Z) - Architectural Backdoors in Neural Networks [27.315196801989032]
モデルアーキテクチャの内部に隠れる新しい種類のバックドアアタックを導入します。
これらのバックドアの実装は簡単で、例えばバックドアモデルアーキテクチャ用のオープンソースコードを公開している。
私たちは、モデルアーキテクチャのバックドアが真の脅威であり、他のアプローチとは異なり、ゼロから完全な再トレーニングに耐えられることを実証しています。
論文 参考訳(メタデータ) (2022-06-15T22:44:03Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Check Your Other Door! Establishing Backdoor Attacks in the Frequency
Domain [80.24811082454367]
検出不能で強力なバックドア攻撃を確立するために周波数領域を利用する利点を示す。
また、周波数ベースのバックドア攻撃を成功させる2つの防御方法と、攻撃者がそれらを回避できる可能性を示す。
論文 参考訳(メタデータ) (2021-09-12T12:44:52Z) - Handcrafted Backdoors in Deep Neural Networks [33.21980707457639]
トレーニング済みモデルのパラメータを直接操作してバックドアを注入する手工芸攻撃を導入する。
バックドアは4つのデータセットと4つのネットワークアーキテクチャで有効であり、成功率は96%を超えています。
以上の結果から,サプライチェーンバックドア攻撃の完全な空間を理解するためには,さらなる研究が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-06-08T20:58:23Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。