論文の概要: Gradient Shaping: Enhancing Backdoor Attack Against Reverse Engineering
- arxiv url: http://arxiv.org/abs/2301.12318v2
- Date: Sat, 2 Mar 2024 22:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 21:11:09.010475
- Title: Gradient Shaping: Enhancing Backdoor Attack Against Reverse Engineering
- Title(参考訳): 勾配整形:リバースエンジニアリングに対するバックドア攻撃の強化
- Authors: Rui Zhu, Di Tang, Siyuan Tang, Guanhong Tao, Shiqing Ma, Xiaofeng
Wang, Haixu Tang
- Abstract要約: 勾配に基づくトリガーインバージョンは、最も効果的なバックドア検出手法の1つであると考えられている。
本研究は, 既存の攻撃は, トリガーキャリング入力に伴う変化率の低いバックドアを注入する傾向にあることを示した。
textitGradient Shaping(GRASP)と呼ばれる新たな攻撃強化を設計し、トリガに関するバックドアモデルの変更率を削減する。
- 参考スコア(独自算出の注目度): 39.11590429626592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing methods to detect backdoored machine learning (ML) models take
one of the two approaches: trigger inversion (aka. reverse engineer) and weight
analysis (aka. model diagnosis). In particular, the gradient-based trigger
inversion is considered to be among the most effective backdoor detection
techniques, as evidenced by the TrojAI competition, Trojan Detection Challenge
and backdoorBench. However, little has been done to understand why this
technique works so well and, more importantly, whether it raises the bar to the
backdoor attack. In this paper, we report the first attempt to answer this
question by analyzing the change rate of the backdoored model around its
trigger-carrying inputs. Our study shows that existing attacks tend to inject
the backdoor characterized by a low change rate around trigger-carrying inputs,
which are easy to capture by gradient-based trigger inversion. In the meantime,
we found that the low change rate is not necessary for a backdoor attack to
succeed: we design a new attack enhancement called \textit{Gradient Shaping}
(GRASP), which follows the opposite direction of adversarial training to reduce
the change rate of a backdoored model with regard to the trigger, without
undermining its backdoor effect. Also, we provide a theoretic analysis to
explain the effectiveness of this new technique and the fundamental weakness of
gradient-based trigger inversion. Finally, we perform both theoretical and
experimental analysis, showing that the GRASP enhancement does not reduce the
effectiveness of the stealthy attacks against the backdoor detection methods
based on weight analysis, as well as other backdoor mitigation methods without
using detection.
- Abstract(参考訳): バックドア機械学習(ML)モデルを検出する既存の手法は、インバージョン(リバースエンジニア)と重み解析(モデル診断)の2つのアプローチの1つである。
特に、勾配に基づくトリガーインバージョンは、TrojAIコンペティション、Trojan Detection Challenge、BackdoorBenchなど、最も効果的なバックドア検出手法の1つであると考えられている。
しかし、なぜこのテクニックがうまく機能するのか、さらに重要なことに、それがバックドア攻撃にバーを上げるかどうかを理解するためにはほとんど行われていない。
本稿では,そのトリガキャリング入力に伴うバックドアモデルの変化率を分析して,この問題に対処する最初の試みについて報告する。
本研究は,既存の攻撃がトリガー搬送入力の変動率が低いことに起因するバックドアを注入する傾向があることを示し,グラデーションに基づくトリガー反転により容易に捕捉できることを示す。
我々は,バックドア効果を損なうことなく,トリガーに関するバックドアモデルの変化率を低減するために,敵対的トレーニングの反対方向に従う新たな攻撃強化である \textit{gradient shaping} (grasp) を設計した。
また,この新しい手法の有効性と,勾配に基づくトリガーインバージョンの基本弱点を説明するための理論的解析を行う。
最後に,GRASPの強化は,重量分析に基づくバックドア検出手法に対するステルス攻撃の有効性を低下させるものではないことを示すとともに,検出を使わずにバックドアを緩和する方法も提案する。
関連論文リスト
- Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - LSP Framework: A Compensatory Model for Defeating Trigger Reverse Engineering via Label Smoothing Poisoning [39.59018626026389]
本稿では,バックドアサンプルの分類信頼度を操作することで,リバースエンジニアリングのトリガを打破する新たな視点を提案する。
適切な修正によって、バックドアアタックは、トリガーリバースエンジニアリングベースのメソッドを簡単にバイパスすることができる。
論文 参考訳(メタデータ) (2024-04-19T12:42:31Z) - Backdoor Mitigation by Correcting the Distribution of Neural Activations [30.554700057079867]
バックドア(トロイジャン)攻撃はディープニューラルネットワーク(DNN)に対する敵対的攻撃の重要なタイプである
バックドア攻撃の重要な特性を解析し、バックドア・トリガー・インスタンスの内部層活性化の分布の変化を引き起こす。
本稿では,分散変化を補正し,学習後のバックドア緩和を効果的かつ効果的に行う方法を提案する。
論文 参考訳(メタデータ) (2023-08-18T22:52:29Z) - Rethinking the Trigger-injecting Position in Graph Backdoor Attack [7.4968235623939155]
バックドア攻撃は、機械学習モデルのセキュリティ脅威として実証されている。
本稿では,グラフニューラルネットワーク(GNN)のバックドア攻撃に対する2つのトリガーインジェクション戦略について検討する。
その結果, LIASの性能は向上し, LIASとMIASの差は大きいことがわかった。
論文 参考訳(メタデータ) (2023-04-05T07:50:05Z) - Backdoor Defense via Suppressing Model Shortcuts [91.30995749139012]
本稿では,モデル構造の角度からバックドア機構を探索する。
攻撃成功率 (ASR) は, キースキップ接続の出力を減少させると著しく低下することを示した。
論文 参考訳(メタデータ) (2022-11-02T15:39:19Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - Backdoor Smoothing: Demystifying Backdoor Attacks on Deep Neural
Networks [25.23881974235643]
バックドア攻撃は、引き起こされたサンプルの周りでよりスムーズな決定関数を誘導することを示します。
実験の結果,入力サンプルにトリガーを付加するとスムーズさが増加し,この現象はより成功した攻撃に対してより顕著であることがわかった。
論文 参考訳(メタデータ) (2020-06-11T18:28:54Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。