論文の概要: Rethinking the Reverse-engineering of Trojan Triggers
- arxiv url: http://arxiv.org/abs/2210.15127v1
- Date: Thu, 27 Oct 2022 02:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:25:04.662849
- Title: Rethinking the Reverse-engineering of Trojan Triggers
- Title(参考訳): トロイの木馬のリバースエンジニアリング再考
- Authors: Zhenting Wang, Kai Mei, Hailun Ding, Juan Zhai, Shiqing Ma
- Abstract要約: ディープニューラルネットワークはトロイの木馬(あるいはバックドア)攻撃に弱い。
既存のリバースエンジニアリング手法は入力空間の制約のみを考慮する。
入力空間と特徴空間の両方のトロイの木は特徴空間超平面と関連している。
- 参考スコア(独自算出の注目度): 13.588758147243828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Networks are vulnerable to Trojan (or backdoor) attacks.
Reverse-engineering methods can reconstruct the trigger and thus identify
affected models. Existing reverse-engineering methods only consider input space
constraints, e.g., trigger size in the input space. Expressly, they assume the
triggers are static patterns in the input space and fail to detect models with
feature space triggers such as image style transformations. We observe that
both input-space and feature-space Trojans are associated with feature space
hyperplanes. Based on this observation, we design a novel reverse-engineering
method that exploits the feature space constraint to reverse-engineer Trojan
triggers. Results on four datasets and seven different attacks demonstrate that
our solution effectively defends both input-space and feature-space Trojans. It
outperforms state-of-the-art reverse-engineering methods and other types of
defenses in both Trojaned model detection and mitigation tasks. On average, the
detection accuracy of our method is 93\%. For Trojan mitigation, our method can
reduce the ASR (attack success rate) to only 0.26\% with the BA (benign
accuracy) remaining nearly unchanged. Our code can be found at
https://github.com/RU-System-Software-and-Security/FeatureRE.
- Abstract(参考訳): ディープニューラルネットワークはトロイの木馬(あるいはバックドア)攻撃に弱い。
リバースエンジニアリング手法はトリガーを再構築し、影響のあるモデルを特定する。
既存のリバースエンジニアリング手法は入力空間の制約、例えば入力空間のトリガーサイズのみを考慮する。
具体的には、トリガーは入力空間の静的パターンであると仮定し、画像変換のような特徴空間トリガーを持つモデルを検出することができない。
入力空間と特徴空間の両方のトロイの木は特徴空間超平面と関連している。
本研究は, 逆エンジントリガに対する特徴空間制約を利用して, 新たなリバースエンジニアリング手法を設計する。
4つのデータセットと7つの異なる攻撃の結果、我々のソリューションは入力空間と特徴空間の両方を効果的に防御することを示した。
トロイの木馬のモデル検出および緩和タスクにおいて、最先端のリバースエンジニアリング手法やその他の防御方法よりも優れている。
平均して,本手法の検出精度は93\%である。
トロイの木馬対策では, BA(良精度)がほぼ変わらず, ASR(攻撃成功率)を0.26\%に抑えることができる。
私たちのコードはhttps://github.com/RU-System-Software-and-Security/FeatureREで確認できます。
関連論文リスト
- Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - An Adaptive Black-box Backdoor Detection Method for Deep Neural Networks [25.593824693347113]
ディープニューラルネットワーク(DNN)は、医療診断や自律運転など、さまざまな分野において前例のないパフォーマンスを示している。
それらは、ステルスシートリガーによって制御され、活性化されるニューラルトロイの木馬攻撃(NT)に対して脆弱である。
本稿では,事前訓練したトロイの木馬が展開前にトロイの木馬に検出されたかどうかを検査するロバストで適応的なトロイの木馬検出手法を提案する。
論文 参考訳(メタデータ) (2022-04-08T23:41:19Z) - Neural Network Trojans Analysis and Mitigation from the Input Domain [13.424638046528719]
Deep Neural Networks(DNN)は、良性または有毒なデータからトロイの木馬(あるいはバックドア)を学ぶことができる。
敵は任意の入力に固定された入力空間摂動を加え、特定の出力を予測するモデルを誤解させる。
モデルの決定領域とトロイの木馬の関係を説明する理論を提案する。
論文 参考訳(メタデータ) (2022-02-13T18:24:31Z) - Deep Feature Space Trojan Attack of Neural Networks by Controlled
Detoxification [21.631699720855995]
トロイの木馬攻撃(Trojan attack)は、ディープニューラルネットワークに対する敵攻撃の一種である。
5つの特徴を持つ新しい深部特徴空間トロイの木馬攻撃を提案する。
論文 参考訳(メタデータ) (2020-12-21T09:46:12Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。