論文の概要: EX-RAY: Distinguishing Injected Backdoor from Natural Features in Neural
Networks by Examining Differential Feature Symmetry
- arxiv url: http://arxiv.org/abs/2103.08820v2
- Date: Wed, 17 Mar 2021 04:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 09:26:23.015631
- Title: EX-RAY: Distinguishing Injected Backdoor from Natural Features in Neural
Networks by Examining Differential Feature Symmetry
- Title(参考訳): ex-ray:差動特徴対称性によるニューラルネットワークの自然特徴とインジェクションバックドアの区別
- Authors: Yingqi Liu, Guangyu Shen, Guanhong Tao, Zhenting Wang, Shiqing Ma,
Xiangyu Zhang
- Abstract要約: バックドア攻撃は、トリガーに埋め込まれた入力が攻撃者が望むターゲットラベルに誤分類されるようなモデルに悪意のある振る舞いを注入する。
2つのクラスを分離する最小の機能集合を識別する新しい対称特徴差分法を開発した。
我々は、TrojAIラウンド2-4とImageNet上のいくつかのモデルから、クリーンモデルとトロイの木馬モデルの両方を含む何千ものモデル上の技術を評価します。
- 参考スコア(独自算出の注目度): 20.62635238886276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor attack injects malicious behavior to models such that inputs
embedded with triggers are misclassified to a target label desired by the
attacker. However, natural features may behave like triggers, causing
misclassification once embedded. While they are inevitable, mis-recognizing
them as injected triggers causes false warnings in backdoor scanning. A
prominent challenge is hence to distinguish natural features and injected
backdoors. We develop a novel symmetric feature differencing method that
identifies a smallest set of features separating two classes. A backdoor is
considered injected if the corresponding trigger consists of features different
from the set of features distinguishing the victim and target classes. We
evaluate the technique on thousands of models, including both clean and
trojaned models, from the TrojAI rounds 2-4 competitions and a number of models
on ImageNet. Existing backdoor scanning techniques may produce hundreds of
false positives (i.e., clean models recognized as trojaned). Our technique
removes 78-100% of the false positives (by a state-of-the-art scanner ABS) with
a small increase of false negatives by 0-30%, achieving 17-41% overall accuracy
improvement, and facilitates achieving top performance on the leaderboard. It
also boosts performance of other scanners. It outperforms false positive
removal methods using L2 distance and attribution techniques. We also
demonstrate its potential in detecting a number of semantic backdoor attacks.
- Abstract(参考訳): バックドア攻撃は、トリガーに埋め込まれた入力が攻撃者が望むターゲットラベルに誤分類されるようなモデルに悪意のある振る舞いを注入する。
しかし、自然機能はトリガーのように振る舞う可能性があり、一度埋め込まれると誤分類を引き起こす。
それらは避けられないが、注入されたトリガーとして誤認識することは、バックドアスキャンにおいて誤った警告を引き起こす。
したがって、重要な課題は自然の特徴を区別し、バックドアを注入することである。
2つのクラスを分離する最小の機能集合を識別する新しい対称特徴差分法を開発した。
対応するトリガーが被害者クラスとターゲットクラスを区別する特徴セットとは異なる特徴からなる場合、バックドアは注入されると考えられる。
我々は,TrojAIラウンドの2-4ラウンドとImageNet上の多数のモデルから,クリーンモデルとトロイの木馬モデルの両方を含む数千のモデルでこの技術を評価する。
既存のバックドアスキャン技術は、数百の偽陽性(つまり、トロイの木馬として認識されるきれいなモデル)を引き起こす可能性がある。
本手法は, 偽陽性の78-100%(最先端スキャナABS)を除去し, 偽陰性が0-30%増加し, 全体的な精度が17-41%向上し, リーダボード上での最高性能の達成を容易にする。
他のスキャナのパフォーマンスも向上する。
L2距離と帰属技術を用いて偽陽性除去法より優れる。
我々はまた、多くのセマンティクスバックドア攻撃を検出する可能性も示している。
関連論文リスト
- Proactive Adversarial Defense: Harnessing Prompt Tuning in Vision-Language Models to Detect Unseen Backdoored Images [0.0]
バックドア攻撃は、隠れたトリガーを入力に埋め込むことで重大な脅威となり、モデルがそれらをターゲットラベルに誤って分類する。
トレーニングと推論の両方において、未確認のバックドア画像を検出するための画期的な手法を提案する。
われわれのアプローチは、学習可能なテキストプロンプトを訓練し、クリーンな画像と隠れたバックドアトリガーを区別する。
論文 参考訳(メタデータ) (2024-12-11T19:54:14Z) - Data Free Backdoor Attacks [83.10379074100453]
DFBAは、モデルアーキテクチャを変更することなく、リトレーニングフリーでデータフリーのバックドア攻撃である。
我々の注入されたバックドアは、様々な最先端の防御策によって、検出不可能で、検出不能であることを確認した。
複数のデータセットに対する評価では,1) 無視可能な分類損失,2) 攻撃成功率,3) 既存の6つの防御を回避している。
論文 参考訳(メタデータ) (2024-12-09T05:30:25Z) - PBP: Post-training Backdoor Purification for Malware Classifiers [5.112004957241861]
近年、サイバーセキュリティにおける機械学習(ML)の台頭は、バックドア中毒の脅威の増加など、新たな課題をもたらしている。
ここでは,特定のバックドア埋め込み機構を仮定することなく,様々な種類のバックドア埋め込みを緩和するマルウェア分類器の訓練後防御であるPBPを紹介する。
提案手法は,2つのデータセット,2種類のバックドア手法,各種攻撃構成の実験により実証された,最先端の手法に対する大きな優位性を示す。
論文 参考訳(メタデータ) (2024-12-04T16:30:03Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - FreeEagle: Detecting Complex Neural Trojans in Data-Free Cases [50.065022493142116]
バックドア攻撃とも呼ばれるディープニューラルネットワークに対するトロイの木馬攻撃は、人工知能に対する典型的な脅威である。
FreeEagleは、複雑なバックドア攻撃を効果的に検出できる最初のデータフリーバックドア検出方法である。
論文 参考訳(メタデータ) (2023-02-28T11:31:29Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - Imperceptible Backdoor Attack: From Input Space to Feature
Representation [24.82632240825927]
バックドア攻撃はディープニューラルネットワーク(DNN)への脅威が急速に高まっている
本稿では,既存の攻撃手法の欠点を分析し,新たな非受容的バックドア攻撃を提案する。
我々のトリガーは、良性画像の1%以下のピクセルしか変更せず、大きさは1。
論文 参考訳(メタデータ) (2022-05-06T13:02:26Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。