論文の概要: EX-RAY: Distinguishing Injected Backdoor from Natural Features in Neural
Networks by Examining Differential Feature Symmetry
- arxiv url: http://arxiv.org/abs/2103.08820v2
- Date: Wed, 17 Mar 2021 04:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 09:26:23.015631
- Title: EX-RAY: Distinguishing Injected Backdoor from Natural Features in Neural
Networks by Examining Differential Feature Symmetry
- Title(参考訳): ex-ray:差動特徴対称性によるニューラルネットワークの自然特徴とインジェクションバックドアの区別
- Authors: Yingqi Liu, Guangyu Shen, Guanhong Tao, Zhenting Wang, Shiqing Ma,
Xiangyu Zhang
- Abstract要約: バックドア攻撃は、トリガーに埋め込まれた入力が攻撃者が望むターゲットラベルに誤分類されるようなモデルに悪意のある振る舞いを注入する。
2つのクラスを分離する最小の機能集合を識別する新しい対称特徴差分法を開発した。
我々は、TrojAIラウンド2-4とImageNet上のいくつかのモデルから、クリーンモデルとトロイの木馬モデルの両方を含む何千ものモデル上の技術を評価します。
- 参考スコア(独自算出の注目度): 20.62635238886276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attack injects malicious behavior to models such that inputs
embedded with triggers are misclassified to a target label desired by the
attacker. However, natural features may behave like triggers, causing
misclassification once embedded. While they are inevitable, mis-recognizing
them as injected triggers causes false warnings in backdoor scanning. A
prominent challenge is hence to distinguish natural features and injected
backdoors. We develop a novel symmetric feature differencing method that
identifies a smallest set of features separating two classes. A backdoor is
considered injected if the corresponding trigger consists of features different
from the set of features distinguishing the victim and target classes. We
evaluate the technique on thousands of models, including both clean and
trojaned models, from the TrojAI rounds 2-4 competitions and a number of models
on ImageNet. Existing backdoor scanning techniques may produce hundreds of
false positives (i.e., clean models recognized as trojaned). Our technique
removes 78-100% of the false positives (by a state-of-the-art scanner ABS) with
a small increase of false negatives by 0-30%, achieving 17-41% overall accuracy
improvement, and facilitates achieving top performance on the leaderboard. It
also boosts performance of other scanners. It outperforms false positive
removal methods using L2 distance and attribution techniques. We also
demonstrate its potential in detecting a number of semantic backdoor attacks.
- Abstract(参考訳): バックドア攻撃は、トリガーに埋め込まれた入力が攻撃者が望むターゲットラベルに誤分類されるようなモデルに悪意のある振る舞いを注入する。
しかし、自然機能はトリガーのように振る舞う可能性があり、一度埋め込まれると誤分類を引き起こす。
それらは避けられないが、注入されたトリガーとして誤認識することは、バックドアスキャンにおいて誤った警告を引き起こす。
したがって、重要な課題は自然の特徴を区別し、バックドアを注入することである。
2つのクラスを分離する最小の機能集合を識別する新しい対称特徴差分法を開発した。
対応するトリガーが被害者クラスとターゲットクラスを区別する特徴セットとは異なる特徴からなる場合、バックドアは注入されると考えられる。
我々は,TrojAIラウンドの2-4ラウンドとImageNet上の多数のモデルから,クリーンモデルとトロイの木馬モデルの両方を含む数千のモデルでこの技術を評価する。
既存のバックドアスキャン技術は、数百の偽陽性(つまり、トロイの木馬として認識されるきれいなモデル)を引き起こす可能性がある。
本手法は, 偽陽性の78-100%(最先端スキャナABS)を除去し, 偽陰性が0-30%増加し, 全体的な精度が17-41%向上し, リーダボード上での最高性能の達成を容易にする。
他のスキャナのパフォーマンスも向上する。
L2距離と帰属技術を用いて偽陽性除去法より優れる。
我々はまた、多くのセマンティクスバックドア攻撃を検出する可能性も示している。
関連論文リスト
- T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Model Pairing Using Embedding Translation for Backdoor Attack Detection on Open-Set Classification Tasks [63.269788236474234]
バックドア検出のためのオープンセット分類タスクにモデルペアを用いることを提案する。
このスコアは、異なるアーキテクチャのモデルがあるにもかかわらず、バックドアの存在を示す指標であることを示している。
この技術は、オープンセット分類タスク用に設計されたモデル上のバックドアの検出を可能にするが、文献ではほとんど研究されていない。
論文 参考訳(メタデータ) (2024-02-28T21:29:16Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。
FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文 参考訳(メタデータ) (2023-02-28T11:31:29Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - MM-BD: Post-Training Detection of Backdoor Attacks with Arbitrary
Backdoor Pattern Types Using a Maximum Margin Statistic [27.62279831135902]
本稿では,任意の種類のバックドア埋め込みによるバックドア攻撃を検出するポストトレーニングディフェンスを提案する。
我々の検出器は正当なクリーンなサンプルを一切必要とせず、任意の数のソースクラスでバックドア攻撃を効率的に検出することができる。
論文 参考訳(メタデータ) (2022-05-13T21:32:24Z) - Imperceptible Backdoor Attack: From Input Space to Feature
Representation [24.82632240825927]
バックドア攻撃はディープニューラルネットワーク(DNN)への脅威が急速に高まっている
本稿では,既存の攻撃手法の欠点を分析し,新たな非受容的バックドア攻撃を提案する。
我々のトリガーは、良性画像の1%以下のピクセルしか変更せず、大きさは1。
論文 参考訳(メタデータ) (2022-05-06T13:02:26Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。