論文の概要: Detecting Backdoors During the Inference Stage Based on Corruption
Robustness Consistency
- arxiv url: http://arxiv.org/abs/2303.18191v1
- Date: Mon, 27 Mar 2023 07:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-09 05:55:22.821525
- Title: Detecting Backdoors During the Inference Stage Based on Corruption
Robustness Consistency
- Title(参考訳): 破壊ロバスト性一貫性に基づく推論段階のバックドア検出
- Authors: Xiaogeng Liu, Minghui Li, Haoyu Wang, Shengshan Hu, Dengpan Ye, Hai
Jin, Libing Wu, Chaowei Xiao
- Abstract要約: 本稿では,被害者モデルのハードラベル出力のみを必要とする試験時間トリガーサンプル検出法を提案する。
私たちの旅は、バックドアに感染したモデルが、クリーンな画像に対して異なる画像の破損に対して同様のパフォーマンスを持つのに、トリガーサンプルに対して不一致に実行するという興味深い観察から始まります。
大規模な実験では、最先端のディフェンスと比較すると、TeCoは異なるバックドア攻撃、データセット、モデルアーキテクチャにおいて、それらよりも優れています。
- 参考スコア(独自算出の注目度): 33.42013309686333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are proven to be vulnerable to backdoor attacks.
Detecting the trigger samples during the inference stage, i.e., the test-time
trigger sample detection, can prevent the backdoor from being triggered.
However, existing detection methods often require the defenders to have high
accessibility to victim models, extra clean data, or knowledge about the
appearance of backdoor triggers, limiting their practicality. In this paper, we
propose the test-time corruption robustness consistency evaluation (TeCo), a
novel test-time trigger sample detection method that only needs the hard-label
outputs of the victim models without any extra information. Our journey begins
with the intriguing observation that the backdoor-infected models have similar
performance across different image corruptions for the clean images, but
perform discrepantly for the trigger samples. Based on this phenomenon, we
design TeCo to evaluate test-time robustness consistency by calculating the
deviation of severity that leads to predictions' transition across different
corruptions. Extensive experiments demonstrate that compared with
state-of-the-art defenses, which even require either certain information about
the trigger types or accessibility of clean data, TeCo outperforms them on
different backdoor attacks, datasets, and model architectures, enjoying a
higher AUROC by 10% and 5 times of stability.
- Abstract(参考訳): ディープニューラルネットワークはバックドア攻撃に弱いことが証明されている。
推論ステージ中のトリガサンプル、すなわちテスト時のトリガサンプル検出を検出することで、バックドアのトリガを防止することができる。
しかし、既存の検出方法は、ディフェンダーが被害者モデルへの高いアクセシビリティ、余分なクリーンデータ、バックドアトリガーの出現に関する知識を要求され、実用性が制限されることが多い。
本稿では,被害者モデルのハードラベル出力のみを必要とする新しい試験時間トリガーサンプル検出手法であるTeCo(Test-time corruption robustness consistency Evaluation)を提案する。
私たちの旅は、バックドアに感染したモデルが、クリーンな画像に対して異なる画像の破損に対して同様のパフォーマンスを持つのを興味深い観察から始まります。
この現象に基づき,異なる汚職をまたいだ予測結果のずれを計算し,テスト時のロバスト性一貫性を評価するためにtecoを設計した。
さまざまなバックドア攻撃、データセット、モデルアーキテクチャにおいてTeCoは、トリガータイプやクリーンデータのアクセシビリティに関する特定の情報を必要とする最先端のディフェンスと比較して、より高いAUROCを10%と5倍の安定性で楽しめます。
関連論文リスト
- Long-Tailed Backdoor Attack Using Dynamic Data Augmentation Operations [50.1394620328318]
既存のバックドア攻撃は主にバランスの取れたデータセットに焦点を当てている。
動的データ拡張操作(D$2$AO)という効果的なバックドア攻撃を提案する。
本手法は,クリーンな精度を維持しつつ,最先端の攻撃性能を実現することができる。
論文 参考訳(メタデータ) (2024-10-16T18:44:22Z) - PSBD: Prediction Shift Uncertainty Unlocks Backdoor Detection [57.571451139201855]
予測シフトバックドア検出(英: Prediction Shift Backdoor Detection、PSBD)は、ディープニューラルネットワークにおけるバックドアサンプルを識別する新しい手法である。
PSBDは興味深い予測シフト(PS)現象によって動機付けられており、クリーンなデータに対する有害なモデルの予測は、しばしば真のラベルから別のラベルへとシフトする。
PSBDは、モデル推論中にドロップアウト層をオン/オフする際の確率値のばらつきである予測シフト不確実性(PSU)を計算することで、バックドアトレーニングサンプルを特定する。
論文 参考訳(メタデータ) (2024-06-09T15:31:00Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Backdoor Attack against One-Class Sequential Anomaly Detection Models [10.020488631167204]
そこで我々は,新たなバックドア攻撃戦略を提案することによって,深部連続異常検出モデルを提案する。
攻撃アプローチは2つの主要なステップ、トリガー生成とバックドアインジェクションから構成される。
2つの確立された1クラスの異常検出モデルにバックドアを注入することにより,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-15T19:19:54Z) - Is It Possible to Backdoor Face Forgery Detection with Natural Triggers? [20.54640502001717]
顔偽造検出モデルに対する新たな分析・合成バックドアアタックを提案する。
本手法は高い攻撃成功率(99%以上)を達成し,低毒性率(3%未満)のモデル精度低下(0.2%以下)を生じさせる。
論文 参考訳(メタデータ) (2023-12-31T07:16:10Z) - Leveraging Diffusion-Based Image Variations for Robust Training on
Poisoned Data [26.551317580666353]
バックドア攻撃は、ニューラルネットワークをトレーニングする上で深刻なセキュリティ上の脅威となる。
本稿では,近年の拡散モデルのパワーを生かして,潜在的に有毒なデータセットのモデルトレーニングを可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:25:06Z) - Confidence-driven Sampling for Backdoor Attacks [49.72680157684523]
バックドア攻撃は、悪質なトリガをDNNモデルに過剰に挿入することを目的としており、テストシナリオ中に不正な制御を許可している。
既存の方法では防衛戦略に対する堅牢性が欠如しており、主に無作為な試薬を無作為に選別しながら、引き金の盗難を強化することに重点を置いている。
信頼性スコアの低いサンプルを選別し、これらの攻撃を識別・対処する上で、守備側の課題を著しく増大させる。
論文 参考訳(メタデータ) (2023-10-08T18:57:36Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain [8.64369418938889]
周波数領域に基づく一般化されたバックドア攻撃手法を提案する。
トレーニングプロセスのミスラベルやアクセスをすることなく、バックドアのインプラントを実装できる。
我々は,3つのデータセットに対して,ラベルなし,クリーンラベルのケースにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-09T07:05:53Z) - Backdoor Smoothing: Demystifying Backdoor Attacks on Deep Neural
Networks [25.23881974235643]
バックドア攻撃は、引き起こされたサンプルの周りでよりスムーズな決定関数を誘導することを示します。
実験の結果,入力サンプルにトリガーを付加するとスムーズさが増加し,この現象はより成功した攻撃に対してより顕著であることがわかった。
論文 参考訳(メタデータ) (2020-06-11T18:28:54Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。